Python学习火热的罪魁祸首 -- 大数据

前两天看到有人后台留言说想了解大数据,这不今天又在催啦,不是没看到留言,一直有偷偷地关注你们的,总得给大家整理呀!理解万岁哈,其实这段时间我也一直在研究大数据相关的东西,就先给大家介绍一下大数据吧,其实我觉得吧,目前处理数据比较好的语言还是
在这里插入图片描述
在这里插入图片描述

大数据产生的背景

在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据,但互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据,数据呈现爆炸式增长,这时我们就进入了大数据的时代。

在这里插入图片描述

(年份)

1GB(Gigabyte)=1024MB

1TB(Terabyte)=1024GB

1PB(Petabyte)=1024TB

1EB(Exabyte) =1024PB

1ZB(Zettabyte)=1024EB

什么是大数据

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

更通俗一点,大数据就是海量的数据,但我们不仅仅只关心这些数据的量,更在意的是如何利用这些数据(对这些数据的存储、计算、分析、应用),这些都和传统的处理方法不在一个量级上,需要我们创造出新的工具,想出更好方法去处理他们,更好的为我们去服务,融入到我们的生活中,这样就形成了大数据时代。

如果我们想驾驭这庞大的数据,我们必须了解大数据的一些特征。

体量(Volume)

互联网的发展迅速使得数据体量非常大,且非结构化数据的超大规模和增长,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍,总数据量的80~90%
在这里插入图片描述

多样性(Variety)

不仅仅是单一的数据增加,数据的形式上也产生了很多形式(文本、图像、视频、机器数据等)
在这里插入图片描述

价值密度(Value)

海量的数据中有大量的不相关信息,但这些信息是对未来趋势与模式的可预测分析,深度复杂分析,机器学习、人工智能的基础数据,好比沙中淘金,是大数据的低价值密度性

速度(Velocity)

大数据处理速要求越来越高,尤其是现在的实时分析而非批量式分析,从数据输入、处理与丢弃,到立竿见影要求几乎是ms级的
在这里插入图片描述

(云计算相结合的大数据存储速度显著提升)

大数据的应用

实时交通信息

利用社交网络和天气数据来优化最新的交通情况

智能城市系统

自动通知消防、公安、医院等,迅速

自然灾害预测

实时监测、对潜在危机做出快速响应,通过卫星和遥感技术,远程获取灾区情况,制定合理

现在大数据应用真是太多了,在这里就不一一说了,说几个最贴近你的吧,抖音推荐系统、头条、淘宝、京东商品推荐,猜你喜欢等功能,有没有感觉很准!

作为一名程序员,你应该做些什么呢

相信这个才是你最感兴趣的,我先简单给大家讲一个简单的大数据项目处理的流程及其所需要的一些技术。

我们要搜集大量相关的数据,这样大数据要存储大量的数据,并且非结构化数据较多,现在存储数据的方式特别多,最典型的的要数Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)。

数据量特别大,我们需要很强的计算能力去计算我们已经保存的数据,目前普遍使用的是Hadoop和Spark这框架。目前Spark更流行,是一个不错的选择,不管是批量式计算还是实时数据计算(只能算是伪实时,可满足ms级别上的需求,实时的需要用Storm来处理)。

我们可以对我们的数据进行实时和批量的计算,然后就是对数据的分析,这一部分涉及到许多算法,也是整个大数据时代的灵魂,Spark MLlib 组件给我们提供了机器学习的算法库,我们可以去使用,选择出最适合我们业务的一个或者多个算法。

按照算法分析完我们的数据之后,就要给用户在我们的应用(网站、APP等)上展示出来,这就是一个简单大数据应用过程。

当然,实际项目中处理起来要比这个要细致的多,每一步中都还有很多细节需要处理,具体细节以后会给大家介绍。另外,大数据与现在的云计算有着密不可分的关系,大数据必须采用云端分布式架构对海量数据进行分布式存储、分布式处理。云计算提供的强大的计算、存储能力,恰好可以接收现在大数据所产生的数据。

我还是觉得目前现在处理大数据的语言利器是Python!薪资也是领域里相当高的,大家选择Python学习,差不多就离走上高富帅不远了,希望就在前方!

今天也是简单跟大家讲了一些大数据,不足之处还望大家海涵,对于大数据的进一步学习,目前也正在研究中!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值