大数据多样性体现在包括_对大数据时代的思考(一)

科技是第一生产力。进入世纪的第一个20年以来,人们越来越多的将关注的领域集中在大数据、人工智能、云计算、物联网、移动互联网、GIS、AR与VR、5G、区块链、数字化与智慧化等,尤其为最近的风口“ABC”。笔者也一直在关注这方面的研究与学习,最近趁着有时间,将把一些科普性的概念写出来,以帮助关注该领域的人更好的理解这几个热点领域的知识,本次分享将介绍一下大数据的产生、概念、影响以及技术支撑。

e3a69e8d2e575fce06249ee2c257a1f7.png

1、Why.为什么会产生大数据?

我们遇到一个概念或者一个问题的思路就是去问“为什么?”同样,提起到大数据,我们会想,之前为什么不是大数据时代(DT),为什么现在是?这里我分享几点我的看法。一个方面,产生大数据的一个基础是我们的计算存储技术发生了革命性的变化,从数据大小的单位来看,数据大小的单位可以分为Bit

691b0bed14391ac9ecfe3da444629d1f.png

2、what,大数据的概念及特征

大数据主要体现在一个“大”大字上面,谈及大数据,我们经常用“4V”来描述,第一,Volume,即容量大、体积大,正如前面所说,大数据的单位应该以PB起步,企业甚至可以到EB。第二个,Velocity,即高速,速率快,大数据产生的速度是很快的,有个知名的说法,即大数摩尔定律,据测算,现在每两年数据就会翻一倍,这个增长量是及其可怕的。第三个,Variety多样性,之前产生的数据多半是结构化的数据,比如多是数值型,而现在越来越多产生图片,音频,视频,网页等半结构化的数据,数据类型的多样性也是大数据的重要体现。第四个,Value,即有价值但又密度低,大数据的背后藏着丰富的商业价值,但是因为海量数据,真正有价值的数据却很难挖掘,数据的价值密度很低。

20cd0fd16ad062f961034d1ceb85f209.png

3、大数据的影响

大数据的影响可以主要概括为,全样而非抽样,效率而非准确,相关而非推断。以前我们获得数据很难,我们会抽样作分析,现在随着大数据的支撑,我们做全样研究很简洁方便。基于之前的抽样研究,我们往往追求模型的准确性,而忽略了效率,大数据的时代,分秒必争,在这一秒,数据是有价值的,而到下一秒,数据就会失去价值,所以大数据时代,效率是王道。最后我们不会再关注特征与特征之间,或者说变量与变量之间的因果推断,而是发现他们相关即可,这在智能推送过程中显得尤为重要。

0f7011b344d8f433418e2ce914cac8b7.png

4、大数据的技术支撑

大数据的技术支撑主要体现在四个方面,主要是数据采集,数据存储与管理、数据处理与分析、数据隐私与安全。其中最为核心的是存储与处理,两者都采用分布式原理,即分布式存储,主要有HDFS,NoSQL,NewSQL;分布式处理,即MapReduce。数据的存储利用分布式文件系统,云数据库,实现对结构化、半结构化和非结构化海量数据进行存储。而数据处理利用分布式并行编程模型,集合机器学习与数据挖掘算法,实现对海量数据的处理与分析,并对分析结构进行可视化呈现。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值