大数据概述_数据生产模式的依次发展阶段为 区移动互联阶段 口用户原创内容阶段 区感知式(1)

一、大数据时代

大数据时代的悄然来临,让信息技术的发展发生了巨大变化,并深刻影响着社会生产和人民生活的方方面面。每个国家都高度重视大数据技术的研究和产业发展,纷纷把大数据上升为国家战略加以重点推进。企业和教育机构也纷纷加大技术,资金和人员投入力度,以期在“第三次信息化浪潮”中占得先机,引领市场。

1、三次信息化浪潮

第一次信息化浪潮

1980年前后,个人计算机的普及,使得计算机走入企业和家庭,大大提高了社会生产力,也使得人类迎来了第一次信息化浪潮,Intel、IBM、苹果,MicroSoft、联想等这些企业是这个时期的标志

第二次信息化浪潮

1995年左右,人类开始全面进入互联网时代,互联网的普及让世界变成“地球村”,每个人都可以享受信息的海洋里冲浪,此时迎来了第二次信息化浪潮,这个时期产生了像雅虎,谷歌,阿里,百度等这样的互联网巨头。

第三次信息化浪潮

时隔十五年,也就是在2010年左右,物联网、云计算和大数据的快速发展,促成了第三次信息化浪潮。各个企业纷纷投入人力,物力,期望能在这个浪潮中成为技术的标杆。

2、大数据时代来临的原因

数据产生方式的变革,是促成大数据时代来临的重要原因。截止到目前来说,人类社会的数据的产生大致分为三个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段

运营式系统阶段

可以说是从数据库的诞生开始的。大型超市销售系统、银行交易系统、股市交易系统、医疗系统、企业客户管理系统等等,这些系统都是建立在数据库之上的。他们用数据库保存大量结构化的关键信息,用来满足企业的各个业务需求。这个阶段,数据的产生是被动的,只有当业务真正发生时,才会产生新的数据并保存到数据库中。如股市的交易系统,只有发生一笔交易后,才会有相关记录生成。

用户原创内容阶段

互联网的出现,使得数据的传播更加快捷。web1.0时代主要以门户网站为代表,强调内容的组织和数据的共享,上网用户本身并不产生。真正的数据爆发产生于以“用户原创内容”为特征的web2.0时代,如wiki,博客,微博,微信,论坛等等这样的技术。这个时候,用户是数据的生成者,尤其当智能手机的普及,更是让用户随时随地的发微博,传照片,数据量急剧增长。

感知式系统阶段

物联网的发展最终导致了人类社会数据量的第三次飞跃。物联网中包含了大量的传感器,如温度传感器,湿度传感器,压力传感器,位移传感器,光电传感器等,再如视频监视摄像头也是物联网的重要组成部分。物联网中的这些设备,无时无刻不在产生大量数据。与web2.0时代的人工数据的产生方式相比,物联网中的数据自动产生方式,将在短时间内生成更密集,更大量的数据,使得人类社会迅速进入“大数据时代”

二、大数据的概念

随着大数据时代的到来,“大数据”已经成为互联网信息技术行业的流行词汇。关于什么是大数据这个问题,大家比较认可大数据的“4V”说法。大数据的四个V,即说的是大数据的四个特征,分别是数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Value)。

1、数据量大(Volume)

如果把印刷在纸上的文字和图形也看成数据的话,那么人类历史上第一次数据爆炸发生在造纸术和印刷术发明的时期。而从1986年开始到2010年的二十多年间,全球产生的数据增长了100倍。

随着时间,数据产生的速度更快,我们正生活在一个“数据爆炸”的时代。

今天,世界上30%的设置是联网的,而在不远的将来,将有更多的用户成为网民,汽车,电视,家用电器,生产机器等各种设备也将全面接入互联网。随着物联网的推广和普及,各种传感器和摄像头将遍布我们工作和生活的各个角落,这些设备每时每刻都在自动产生大量数据。

根据著名咨询机构IDC(Internet Data Center)做出的估测,人类社会产生的数据一直都在以每年50%的速度增长,也就是说,每两年就增加一倍,这被称为“大数据摩尔定律”。

这意味着,人类在最近两年产生的数据量相当于之前产生的全部数据量之和。预计到2020年,全球将总共拥有35ZB的数据量,与2010年相比,数据量将增长到近30倍。

单位 换算关系

Byte(字节)	1Byte=8bit
KB(Kilobyte 千字节)	1KB=1024Byte
MB(MegaByte,兆字节)	1MB=1024KB
GB(Gigabyte,吉字节)	1GB=1024MB
TB(Trillionbyte,太字节)	1TB=1024GB
PB(Petabyte,派字节)	1PB=1024TB
EB(Exabyte,艾字节)	1EB=1024PB
ZB(Zettabyte,泽字节)	1ZB=1024EB

2、数据类型繁多(Variety)

大数据的数据来源众多,科学研究、企业应用和Web应用等都在源源不断地生成新的数据。生物大数据、交通大数据、医疗大数据、电信大数据、电力大数据、金融大数据等,都呈现出“井喷式”增长,所涉及的数量十分巨大,已经从TB级别跃升到PB级别。

大数据的数据类型丰富,包括结构化数据和非结构化数据,其中,前者占10%左右,主要是指存储在关系数据库中的数据,后者占90%左右,种类繁多,主要包括邮件、音频、视频、微信、微博、位置信息、链接信息、手机呼叫信息、网络日志等。

如此类型繁多的异构数据,对数据处理和分析技术提出了新的挑战,也带来了新的机遇。

3、处理速度快(Velocity)

大数据时代的数据产生速度非常迅速。在Web 2.0应用领域,在1分钟内,新浪可以产生2万条微博,Twitter可以产生10万条推文,苹果可以下载4.7万次应用,淘宝可以卖出6万件商品,人人网可以发生30万次访问,百度可以产生90万次搜索查询,Facebook可以产生600万次浏览量。大名鼎鼎的大型强子对撞机(LHC),大约每秒产生6亿次的碰撞,每秒生成约700MB的数据,有成千上万台计算机分析这些碰撞。

大数据时代的很多应用,都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践,因此,数据处理和分析的速度通常要达到秒级响应,这一点和传统的数据挖掘技术有着本质的不同,后者通常不要求给出实时分析结果。

为了实现快速分析海量数据的目的,新兴的大数据分析技术通常采用集群处理和独特的内部设计。以谷歌公司的Dremel为例,它是一种可扩展的、交互式的实时查询系统,用于只读嵌套数据的分析,通过结合多级树状执行过程和列式数据结构,它能做到几秒内完成对万亿张表的聚合查询,系统可以扩展到成千上万的CPU上,满足谷歌上万用户操作PB级数据的需求,并且可以在2~3秒内完成PB级别数据的查询。

4、价值密度低(value)

大数据虽然看起来很美,但是,价值密度却远远低于传统关系数据库中已经有的那些数据。在大数据时代,很多有价值的信息都是分散在海量数据中的。以小区监控视频为例,如果没有意外事件发生,连续不断产生的数据都是没有任何价值的,当发生偷盗等意外情况时,也只有记录了事件过程的那一小段视频是有价值的。但是,为了能够获得发生偷盗等意外情况时的那一段宝贵的视频,我们不得不投入大量资金购买监控设备、网络设备、存储设备,耗费大量的电能和存储空间,来保存摄像头连续不断传来的监控数据。

如果这个实例还不够典型的话,那么我们可以想象另一个更大的场景。假设一个电子商务网站希望通过微博数据进行有针对性营销,为了实现这个目的,就必须构建一个能存储和分析新浪微博数据的大数据平台,使之能够根据用户微博内容进行有针对性的商品需求趋势预测。愿景很美好,但是,现实代价很大,可能需要耗费几百万元构建整个大数据团队和平台,而最终带来的企业销售利润增加额可能会比投入低许多,从这点来说,大数据的价值密度是较低的。

三、大数据的影响

1 大数据对科学研究的影响

图灵奖获得者、著名数据库专家吉姆·格雷(Jim Gray)博士观察并总结认为,人类自古以来在科学研究上先后历经了实验、理论、计算和数据四种范式,具体如下:

(1)第一种范式:实验

在最初的科学研究阶段,人类采用实验来解决一些科学问题,著名的比萨斜塔实验就是一个典型实例。1590年,伽利略在比萨斜塔上做了“两个铁球同时落地”的实验,得出了重量不同的两个铁球同时下落的结论,从此推翻了亚里士多德“物体下落速度和重量成比例”的学说,纠正了这个持续了1 900年之久的错误结论。

(2)第二种范式:理论

随着科学的进步,人类开始采用各种数学、几何、物理等理论,构建问题模型和解决方案。比如牛顿第一定律、牛顿第二定律、牛顿第三定律构成了牛顿力学的完整体系,奠定了经典力学的概念基础,它的广泛传播和运用对人们的生活和思想产生了重大影响,在很大程度上推动了人类社会的发展与进步。

(3)第三种范式:计算

随着1946年人类历史上第一台计算机ENIAC的诞生,人类社会开始步入计算机时代,科学研究也进入了一个以“计算”为中心的全新时期。通过设计算法并编写相应程序输入计算机运行,人类可以借助于计算机的高速运算能力去解决各种问题。计算机具有存储容量大、运算速度快、精度高、可重复执行等特点,是科学研究的利器,推动了人类社会的飞速发展

(4)第四种范式:数据

随着数据的不断累积,其宝贵价值日益得到体现,物联网和云计算的出现,更是促成了事物发展从量变到质变的转变,使人类社会开启了全新的大数据时代。在大数据环境下,一切将以数据为中心,从数据中发现问题、解决问题,真正体现数据的价值。大数据将成为科学工作者的宝藏,从数据中可以挖掘未知模式和有价值的信息,服务于生产和生活,推动科技创新和社会进步。

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

课程,涵盖了95%以上大数据知识点,真正体系化!**

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

  • 25
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值