大数据概述_数据生产模式的依次发展阶段为区移动互联阶段口用户原创内容阶段区感知式(2)

本文链接：https://blog.csdn.net/2401_84573183/article/details/138924497

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

1995年左右，人类开始全面进入互联网时代，互联网的普及让世界变成“地球村”，每个人都可以享受信息的海洋里冲浪，此时迎来了第二次信息化浪潮，这个时期产生了像雅虎，谷歌，阿里，百度等这样的互联网巨头。

第三次信息化浪潮

时隔十五年，也就是在2010年左右，物联网、云计算和大数据的快速发展，促成了第三次信息化浪潮。各个企业纷纷投入人力，物力，期望能在这个浪潮中成为技术的标杆。

2、大数据时代来临的原因

数据产生方式的变革，是促成大数据时代来临的重要原因。截止到目前来说，人类社会的数据的产生大致分为三个阶段：运营式系统阶段、用户原创内容阶段和感知式系统阶段

运营式系统阶段

可以说是从数据库的诞生开始的。大型超市销售系统、银行交易系统、股市交易系统、医疗系统、企业客户管理系统等等，这些系统都是建立在数据库之上的。他们用数据库保存大量结构化的关键信息，用来满足企业的各个业务需求。这个阶段，数据的产生是被动的，只有当业务真正发生时，才会产生新的数据并保存到数据库中。如股市的交易系统，只有发生一笔交易后，才会有相关记录生成。

用户原创内容阶段

互联网的出现，使得数据的传播更加快捷。web1.0时代主要以门户网站为代表，强调内容的组织和数据的共享，上网用户本身并不产生。真正的数据爆发产生于以“用户原创内容”为特征的web2.0时代，如wiki,博客，微博，微信，论坛等等这样的技术。这个时候，用户是数据的生成者，尤其当智能手机的普及，更是让用户随时随地的发微博，传照片，数据量急剧增长。

感知式系统阶段

物联网的发展最终导致了人类社会数据量的第三次飞跃。物联网中包含了大量的传感器，如温度传感器，湿度传感器，压力传感器，位移传感器，光电传感器等，再如视频监视摄像头也是物联网的重要组成部分。物联网中的这些设备，无时无刻不在产生大量数据。与web2.0时代的人工数据的产生方式相比，物联网中的数据自动产生方式，将在短时间内生成更密集，更大量的数据，使得人类社会迅速进入“大数据时代”

二、大数据的概念

随着大数据时代的到来，“大数据”已经成为互联网信息技术行业的流行词汇。关于什么是大数据这个问题，大家比较认可大数据的“4V”说法。大数据的四个V，即说的是大数据的四个特征，分别是数据量大（Volume）、数据类型繁多（Variety）、处理速度快（Velocity）、价值密度低（Value）。

1、数据量大（Volume）

如果把印刷在纸上的文字和图形也看成数据的话，那么人类历史上第一次数据爆炸发生在造纸术和印刷术发明的时期。而从1986年开始到2010年的二十多年间，全球产生的数据增长了100倍。

随着时间，数据产生的速度更快，我们正生活在一个“数据爆炸”的时代。

今天，世界上30%的设置是联网的，而在不远的将来，将有更多的用户成为网民，汽车，电视，家用电器，生产机器等各种设备也将全面接入互联网。随着物联网的推广和普及，各种传感器和摄像头将遍布我们工作和生活的各个角落，这些设备每时每刻都在自动产生大量数据。

根据著名咨询机构IDC（Internet Data Center）做出的估测，人类社会产生的数据一直都在以每年50%的速度增长，也就是说，每两年就增加一倍，这被称为“大数据摩尔定律”。

这意味着，人类在最近两年产生的数据量相当于之前产生的全部数据量之和。预计到2020年，全球将总共拥有35ZB的数据量，与2010年相比，数据量将增长到近30倍。

单位换算关系

Byte（字节）	1Byte=8bit
KB(Kilobyte 千字节)	1KB=1024Byte
MB(MegaByte，兆字节)	1MB=1024KB
GB(Gigabyte,吉字节)	1GB=1024MB
TB(Trillionbyte,太字节)	1TB=1024GB
PB(Petabyte,派字节)	1PB=1024TB
EB(Exabyte,艾字节)	1EB=1024PB
ZB(Zettabyte,泽字节)	1ZB=1024EB

2、数据类型繁多（Variety）

大数据的数据来源众多，科学研究、企业应用和Web应用等都在源源不断地生成新的数据。生物大数据、交通大数据、医疗大数据、电信大数据、电力大数据、金融大数据等，都呈现出“井喷式”增长，所涉及的数量十分巨大，已经从TB级别跃升到PB级别。

大数据的数据类型丰富，包括结构化数据和非结构化数据，其中，前者占10%左右，主要是指存储在关系数据库中的数据，后者占90%左右，种类繁多，主要包括邮件、音频、视频、微信、微博、位置信息、链接信息、手机呼叫信息、网络日志等。

如此类型繁多的异构数据，对数据处理和分析技术提出了新的挑战，也带来了新的机遇。

3、处理速度快（Velocity）

大数据时代的数据产生速度非常迅速。在Web 2.0应用领域，在1分钟内，新浪可以产生2万条微博，Twitter可以产生10万条推文，苹果可以下载4.7万次应用，淘宝可以卖出6万件商品，人人网可以发生30万次访问，百度可以产生90万次搜索查询，Facebook可以产生600万次浏览量。大名鼎鼎的大型强子对撞机（LHC），大约每秒产生6亿次的碰撞，每秒生成约700MB的数据，有成千上万台计算机分析这些碰撞。

大数据时代的很多应用，都需要基于快速生成的数据给出实时分析结果，用于指导生产和生活实践，因此，数据处理和分析的速度通常要达到秒级响应，这一点和传统的数据挖掘技术有着本质的不同，后者通常不要求给出实时分析结果。

为了实现快速分析海量数据的目的，新兴的大数据分析技术通常采用集群处理和独特的内部设计。以谷歌公司的Dremel为例，它是一种可扩展的、交互式的实时查询系统，用于只读嵌套数据的分析，通过结合多级树状执行过程和列式数据结构，它能做到几秒内完成对万亿张表的聚合查询，系统可以扩展到成千上万的CPU上，满足谷歌上万用户操作PB级数据的需求，并且可以在2～3秒内完成PB级别数据的查询。

4、价值密度低（value）

大数据虽然看起来很美，但是，价值密度却远远低于传统关系数据库中已经有的那些数据。在大数据时代，很多有价值的信息都是分散在海量数据中的。以小区监控视频为例，如果没有意外事件发生，连续不断产生的数据都是没有任何价值的，当发生偷盗等意外情况时，也只有记录了事件过程的那一小段视频是有价值的。但是，为了能够获得发生偷盗等意外情况时的那一段宝贵的视频，我们不得不投入大量资金购买监控设备、网络设备、存储设备，耗费大量的电能和存储空间，来保存摄像头连续不断传来的监控数据。

如果这个实例还不够典型的话，那么我们可以想象另一个更大的场景。假设一个电子商务网站希望通过微博数据进行有针对性营销，为了实现这个目的，就必须构建一个能存储和分析新浪微博数据的大数据平台，使之能够根据用户微博内容进行有针对性的商品需求趋势预测。愿景很美好，但是，现实代价很大，可能需要耗费几百万元构建整个大数据团队和平台，而最终带来的企业销售利润增加额可能会比投入低许多，从这点来说，大数据的价值密度是较低的。

三、大数据的影响

1　大数据对科学研究的影响

图灵奖获得者、著名数据库专家吉姆·格雷（Jim Gray）博士观察并总结认为，人类自古以来在科学研究上先后历经了实验、理论、计算和数据四种范式，具体如下：

（1）第一种范式：实验

在最初的科学研究阶段，人类采用实验来解决一些科学问题，著名的比萨斜塔实验就是一个典型实例。1590年，伽利略在比萨斜塔上做了“两个铁球同时落地”的实验，得出了重量不同的两个铁球同时下落的结论，从此推翻了亚里士多德“物体下落速度和重量成比例”的学说，纠正了这个持续了1 900年之久的错误结论。

（2）第二种范式：理论

随着科学的进步，人类开始采用各种数学、几何、物理等理论，构建问题模型和解决方案。比如牛顿第一定律、牛顿第二定律、牛顿第三定律构成了牛顿力学的完整体系，奠定了经典力学的概念基础，它的广泛传播和运用对人们的生活和思想产生了重大影响，在很大程度上推动了人类社会的发展与进步。

（3）第三种范式：计算

随着1946年人类历史上第一台计算机ENIAC的诞生，人类社会开始步入计算机时代，科学研究也进入了一个以“计算”为中心的全新时期。通过设计算法并编写相应程序输入计算机运行，人类可以借助于计算机的高速运算能力去解决各种问题。计算机具有存储容量大、运算速度快、精度高、可重复执行等特点，是科学研究的利器，推动了人类社会的飞速发展

（4）第四种范式：数据

随着数据的不断累积，其宝贵价值日益得到体现，物联网和云计算的出现，更是促成了事物发展从量变到质变的转变，使人类社会开启了全新的大数据时代。在大数据环境下，一切将以数据为中心，从数据中发现问题、解决问题，真正体现数据的价值。大数据将成为科学工作者的宝藏，从数据中可以挖掘未知模式和有价值的信息，服务于生产和生活，推动科技创新和社会进步。

2　大数据对思维方式的影响

维克托·迈尔·舍恩伯格在《大数据时代：生活、工作与思维的大变革》一书中明确指出，大数据时代最大的转变就是思维方式的3种转变：全样而非抽样、效率而非精确、相关而非因果。

（1）全样而非抽样

过去，由于数据存储和处理能力的限制，在科学分析中，通常采用抽样的方法，即从全集数据中抽取一部分样本数据，通过对样本数据的分析，来推断全集数据的总体特征。通常，样本数据规模要比全集数据小很多，因此，可以在可控的代价内实现数据分析的目的。现在，我们已经迎来大数据时代，大数据技术的核心就是海量数据的存储和处理，分布式文件系统和分布式数据库技术，提供了理论上近乎无限的数据存储能力，分布式并行编程框架MapReduce提供了强大的海量数据并行处理能力。因此，有了大数据技术的支持，科学分析完全可以直接针对全集数据而不是抽样数据，并且可以在短时间内迅速得到分析结果，速度之快，超乎我们的想象。就像前面我们已经提到过的，谷歌公司的Dremel可以在2～3秒内完成PB级别数据的查询。

（2）效率而非精确

过去，我们在科学分析中采用抽样分析方法，就必须追求分析方法的精确性，因为，抽样分析只是针对部分样本的分析，其分析结果被应用到全集数据以后，误差会被放大，这就意味着，抽样分析的微小误差，被放大到全集数据以后，可能会变成一个很大的误差。因此，为了保证误差被放大到全集数据时仍然处于可以接受的范围，就必要确保抽样分析结果的精确性。正是由于这个原因，传统的数据分析方法往往更加注重提高算法的精确性，其次才是提高算法效率。现在，大数据时代采用全样分析而不是抽样分析，全样分析结果就不存在误差被放大的问题，因此，追求高精确性已经不是其首要目标；相反，大数据时代具有“秒级响应”的特征，要求在几秒内就迅速给出针对海量数据的实时分析结果，否则就会丧失数据的价值，因此，数据分析的效率成为关注的核心。

（3）相关而非因果