大数据——何谓“大”

  “互联网”“大数据”“人工智能”你可能在无数篇文献中都看到过这三个词,这三个词的顺序其实是不能颠倒的。互联网、大数据、人工智能的关系:互联网产生了大量数据,使用大数据技术进行存储+计算,并对人工智能提供支撑。

  在互联网时代,我们都能上网,而只要上网就会产生大量数据。

  你在逛京东的时候,浏览某一个商品,你的这些行为数据会被记录下来,甚至你把鼠标悬浮在某一个分类上,并没有点击,它就会记录数据。

  那这么庞大的数据要怎么存,怎么去计算呢?

  当然要把这些数据存储下来。但如果你只是单独存储下来,不去对这些数据进行下一步的分析计算,那这些数据就是死数据,不能产生什么价值。所以要让这些数据产生更大的价值,就要对它们进行计算。

  所以大数据解决的两个问题——

  海量数据的存储

  海量数据的计算

  同时,大数据也为人工智能提供支撑。因为人工智能里面其实有很多算法,算法可以简单来理解为公式。但这个公式真的准确么?还是得靠大量的数据来进行校验。

  大数据,从表面上看,就是说大的数据量,即海量数据。那你想一想,仅仅是数据量大就是大数据吗?多大算大呢,有一个标准么?

  

大数据——何谓“大”

  数据,其实是有一个量级的,如上图,看一下数据的度量模型。它的度量单位,MB、GB、TB……可能你在平时的生活中有所接触,现在 1TB、2TB 的移动硬盘也非常普遍了。其实到现在为止,我们全球范围内全人类的整个数据量也就才到 ZB 级。说起 MB,大家可能还有一些体会,到 GB 可能也有一些概念,一个电影它可能就是几十M、几百M,或者几G, 但是你到 PB 可能就没有感觉了。

  如何去衡量更大单位的容量大小呢?

  1PB 相当于 50% 的全美学术研究图书馆藏书信息内容

  5EB 相当于至今全世界人类所讲过的所有话语

  1ZB 如同全世界海滩上的沙子数量总和

  1YB 相当于 7000 位人类体内的微细胞总和

  2021 年,全球数据总量达到了40ZB

  那么你肯定想问,到哪个量级才算是“大数据”呢?

  有的人说达到 PB 级的数据才算是“大数据”。但实际上,普遍说来,多大的数据量才算大数据并没有一个明确的标准。

  很多公司处理的数据量在 TB 级,也就是没达到 PB 级,但是它也要上大数据平台,应用大数据技术。因为传统的技术已经搞不定了,只有用大数据平台来解决业务问题。

  大数据(BIG DATA),指无法在一定时间范围内用常规软件工具(比如 MySQL)进行捕捉、管理和处理的数据集合,是需要新处理模式才能处理的海量、高增长率和多样化的信息资产。

  那常规软件又指什么呢?

  学过计算机的同学可能接触过 MySQL ,其实它就属于常规软件。MySQL 就是一种关系型数据库,而关系型数据库说白了是一种二维表格模型,类似于 Excel 是有明确的行和列的二维表格模型。这样看来, IT 时代的很多软件,当我们数据量大了以后,都不太好存,也不太好算了,甚至根本存不了或算不了了。

  像这样的数据场景,我们就称之为大数据;解决这样数据场景的技术,我们就称之为大数据技术。

  提到大数据技术就不得不谈Hadoop,hadoop是大数据技术的基石和开山之作,是每个想要从事大数据方面工作的人员必须精通的一门技术。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值