大数据从何而来?

本文追溯了大数据从社交媒体、移动互联网、物联网等催化剂作用下的起源,详细介绍了从数据到大数据、快数据、深数据的演变过程。重点讨论了数据库技术的发展,包括导航型、关系型、面向对象型和新型数据库如NoSQL、Hadoop、NewSQL。同时,提到了大数据在商业智能、数据仓库中的应用,以及21世纪以来移动互联网和人工智能对大数据的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【前言】
在人类科技发展史上,恐怕没有任何一种新生事物深入人心的速度堪比大数据。如果把2012年作为大数据开始爆发性增长的元年,短短数年间,无论是作为一门新技术,一个新的语言符号,还是一种市场推广的新工具,大数据红遍街头巷尾,从工业界到商业界到学术界到政界,所有的行业都经受了大数据的洗礼—从技术的迭代到理念的更新,大数据无处不在。
在这里插入图片描述

一 | 大数据的催化剂

是什么催生了大数据呢?

·社交媒体
·移动互联网
·物联网

大数据的三大催化剂
(1)社交媒体
社交媒体(SNS,Social Networking Service或Social Networking Site)的雏形应该是BBS(Bulletin Board System,电子公告牌系统),最早的BBS是1973年在美国加州旧金山湾区出现的Community Memory系统,当时的网络连接是通过Modem远程接入一款叫作SDS 940的分时处理大型机来实现的。
中国最早的BBS系统经历了从1992年的长城站,到后来的惠多网(据说惠多网的用户中有中国最早一批本土互联网创业者—马化腾、求伯君、丁磊等),到1994年中科院网络上建立的真正意义上的基于互联网的BBS系统——曙光站,而同时在线超过100人的第一个国内大型BBS论坛则是长盛不衰的水木清华,而它的起因大抵是因为清华大学的同学们对于连接隔壁中科院的曙光站竟然要先从中国教育网跑到太平洋彼岸的美国再折返回中科院网络表示愤懑,于是自立门户成立了水木清华站——它最早是在一台386 PC上提供互联网接入服务的。

(2)移动互联网
移动互联网是互联网的高级发展阶段,也是互联网发展的必然。
移动互联网是以移动设备,特别是智能手机、平板电脑等移动终端设备全面进入我们的生活、工作为标志的。
最早的具备联网功能的移动终端设备是1990年代中期开始流行的PDA(Personal Digital Assistant)。遗憾的是市场更新迭代的速度如此之快,在短短10年后,PDA操作系统三大巨头Palm、BlackBerry与Microsoft Windows CE,外加最早的手机巨头Nokia就已经让位于真正的智能手机操作系统后起之秀——Apple iOS与Android。
从1997—2002年,是互联网猛烈增长的5年,迅速达到了100GB/s的水平,而同一年硬盘寻址空间刚刚突破137GB的限制;2007年又增长了20倍到达了2,000GB/s的水平,同年Hitachi也推出了第一块1TB(1,000GB)容量的硬盘;2014年的互联网流量已经突破16TB/s……从任何一个角度看,网络流量的增速都超过了单块硬盘的扩容速度,这也从另一个侧面解释了为什么我们的IT基础架构一直处于不断的升级、扩容中—大(量)数据联网交换的需求推动所致。
(3)物联网
物联网(Internet of Things,IoT)的起源可以追溯到1999年,当时在P&G工作的英国人Kevin Ashton最早冠名使用了IoT字样,同一年他在MIT成立了一个旨在推广RFID技术的Auto-ID中心,而对于P&G来说最直接的效益就是利用RFID技术与无线传感器的结合可以对其供应链系统进行有效的跟踪与管理。
国人对物联网的熟知应当是2009年,先是国务院总理对无锡物联网科技产业园区的考察,而后是总理的一篇面向首都科技界《让科技引领中国可持续发展》的讲话。有一种提法认为继移动互联网之后,IT行业最高速的增长会在物联网领域。
社交媒体、移动互联网、物联网三大催化剂让数据量在过去几十年间呈指数级增长,除此以外,数据的产生速率以及数据的多样性与复杂性都在随之增长。
数据的这三大特性—数量(Volume)、速率(Velocity)与多样性(Variety),我们通常称之为大数据的3V。如果再考虑到数据来源的可靠性与真实性(Veracity)以及数据的价值(Value),可以把3V扩展到5V,不过通常业界对于数据的价值的定义有很多主观因素在里面,因此业界通常都习惯引用IBM最早提出的大数据的4V—The Four V’s of Big Data7,如下图所示。

大数据的“大”特征

二 | Data 到 Big Data 到 Fast Data 到 Deep Data

让我们来溯源一下大数据从何而来?大数据作为一门技术有哪些分支与流派?

纵观人类发展史,围绕着信息的记录、整合、处理与分析的方式、手段与规模,笔者将其分为六个时间发展阶段。如果单纯的从数据处理的核心特点来表达又可以分为:从数据到大数据(突出规模为主),再到快数据(突出处理速度的挑战),最后到深数据(突出数据处理深度、复杂度增加的挑战)。

数据到大数据再到快数据的发展历程

(1)上古时代—18世纪
在人类发展早期的蒙昧时代,传递信息和记事的方式可以用六个字来概括:垒石、刻木、结绳。
垒石以计数,刻木以求日,结绳以记事。这三样貌似离我们很遥远的事情经常被称为原始会计手段—即便在今天它们在我们的文化和生活当中依然留有深深的印记——流落荒岛、漂流海上,刻木求日依然是最有效的方法;而汉字当中有大量文字也可以找到结绳的影子,汉朝人郑玄在《周易注》中说:

“古者无文字,结绳为约,事大,大结其绳;事小,小结其绳。

在印加文化当中也有结绳记数的实例,并且有学者发现印加绳的穿系方法与中国结惊人的一致,或为两种文明存在传承关系的证据之一。
中国古代结绳记事与文字vs印加Khipu(记簿)绳

原始会计学的这几种记事或计数的方式显然不能承载足够多的信息与数据,直到文字的出现。以中文的发展为例,可归纳为结绳到陶文到甲骨文到金文(虫文、鸟文)到大篆到小篆到隶书到楷书、草书等。
在这里插入图片描述
文字所能蕴含的信息无比巨大,最典型的是在古籍善本中记录的户籍管理与人口统计信息。中国最早在夏、商、周三代就已经有了比较完备的统计制度,而人类文明更早还可以追溯到古巴比伦文化早在公元前4000年前后举办过的地籍、畜牧业普查,今天我们说的人口普查(拉丁文:census)字样本身还是源自于古罗马在公元前6世纪前后为了税收与征兵事宜而施行的登记制度。
在这里插入图片描述
统计学发展为一门系统化的科学可以追溯到17世纪中叶的英国,伦敦的缝纫用品商人、业余统计学家约翰·格兰特(John Graunt)在1662年出版了《Natural and Political Observations Made upon the Bills of Mortality》一书,书中使用了统计学(Statistics)与精算学(Actuarial Science)的方式对伦敦市的人口建立了一张寿命表(Life Table)并对各地区的人口进行了统计分析与估算。如果我们来看一下当时大的时代背景:以黑死病(Black Death)爆发为起点的第二次鼠疫大流行(Second Pandemic)已经肆虐了欧洲300年之久,而在伦敦这样人群密度高的城市中,英国政府需要一套针对鼠疫等传染病爆发的预警系统—而作为民科的约翰·格兰特的分析与建模工作可以称作是人口统计学与流行病学的鼻祖。
约翰·格兰特的著作《对死亡率表的自然与政治观察》(Natural and Political Observations Made upon the Bills of Mortality)

(2)19世纪中叶
人类采集数据、处理数据、分析数据,从中获得信息并升华为知识的实践从来没有停止过,只是在形式上从早期人类的原始会计学,发展到3个世纪前的古典统计学。时光再向前走到19世纪中叶,出现了最早的众包(Crowdsourcing)。
1848年到1861年间,美国海军海洋学家、天文学家Matthew F. Maury通过不断地向远航的海员们提供数以十万张计的免费的季风与洋流图纸并以海员们返回后提供详细的标准化的航海日记作为交换条件整理出了一整套详尽的大西洋-太平洋洋流与季风的图纸。
Matthew F. Maury绘制的大西洋-太平洋洋流与季风图(1841)局部
(3)第二次世界大战—20世纪80年代
19世纪的众筹的力量虽然巨大,但在数据处理的方式上还限于手工整理,真正的电子数字可编程计算机是第二次世界大战后期在英国被发明的,盟军为了破解以德国为首的轴心国的军用电报密码。
尤为著名的是Enigma Machines,一款典型的民用转军用密码生成设备,在一个有6根引线的接线板上,对字母的可互换可能性有1,000亿次,而10根引线的可能性则高达150万亿次。对于如此规模的海量数据组合可能性,使用人工排序来暴力破解的方式显然不会成功,甚至是使用电动机械设备(Electromagnetical Device,电子计算机的前身)效率也远远不够。
英国数学家图灵(Alan Turing)在1939—1940年通过他设计的电动机械设备Bombe来破解纳粹不断升级优化的Enigma密码时意识到了这一点。于是在1943年找到了另一位英国人Tommy Flowers,仅用了11个月的时间,1944年年初Flowers设计的Colossus计算机面世并成功破解了最新的德军的密码。
每台Colossus计算机的数据处理是每秒钟5,000个字符,送纸带(Paper Tape)以12.2m/s的速度高速移动,并且多台Colossus可以并行操作——我们今天称之为“并行计算”。
从左到右分别是:Enigma机器的接线板,图灵设计的Bombe解密设备,Flowers设计的Colossus真空管电子计算机)
20世纪50—70年代是计算机技术飞速发展的20年,从50年代中期开始出现的基于晶体管(Transistor)技术的晶体管计算机到60年代的大型主机(Mainframes)到70年代的小型机(Minicomputers)的出现,我们对数据的综合处理能力、分析能力以及存储能力都得到了指数级的增长。
在这里插入图片描述

而数据分析能力的提高是与对应的数据存储能力的提升对应的。在软件层面,最值得一提的是数据库的出现。
在这里,笔者需要花一页的篇幅来介绍一下数据库的发展史,以便读者能对本节的上下文有个全面的了解。数据库可以算作计算机软件系统中最为复杂的系统。
数据库的发展从时间轴上看大体可分为四大类:

导航型数据库 Navigational Database
关系型数据库 Relational Database
面向对象型数据库Object Database
大数据类新型数据存储与处理方式 NoSQL/NewSQL/Hadoop

· Navigational数据库是20世纪60年代随着计算机技术的快速发展而兴起的。主要关联了两种数据库接口模式—Network Model和Hierarchical Model。

前者在大数据技术广泛应用的今天已经演变为Graph Database(图数据库),简而言之每个数据节点可以有多个父节点也可以有多个子节点;而后者描述的是一种树状分层分级的模式,每个数据节点可以有多个子节点,但是只能有一个父节点,不难看出这种树状结构对于数据类型及关系的建模的限制是较大的(而且树状结构也是图拓扑结构的一种,因此,后者是可以被前者所囊括的),关于图(拓扑)数据库的发展历程,我们后面单独介绍。

**· 关系型数据库(RDBMS)**自20世纪70年代诞生以来,在过去四十几年中获得了长足的发展,也是我们今天最为熟知的数据库系统类型。尽管它在大数据到快数据到深数据的时代遇到了越来越多挑战,但是客观的讲,RDBMS依然是市场的中坚力量。

关系型数据库的起源离不开一个英国人—Edgar Frank Codd。20世纪70年代他在IBM的硅谷研发中心工作期间对CODASYL Approach(20世纪60年代中期—70年代初的导航型数据库)并不满意(比如缺少搜索支持等),于是在1970年与1971年先后发表2篇著名的论文——A Relational Model of Data for Large Shared Data Banks(大规模共享数据银行的关系模型描述)和A Data Base Sublanguage Founded on the Relational Calculus(基于关系计算的数据库子语言)。这两篇论文直接奠定了关系型数据库的基础,即数据之间的关系模型,并在第二篇论文中描述了Alpha语言。这个名字相当霸气,要知道C语言是受到了贝尔实验室发明的B语言的启发而生的,而Alpha=A语言竟然意图排在它们之前,由此可见Codd老先生对Alpha语言寄予的厚望。

回顾数据库的发展历史,Alpha的确直接影响了QUEL query language(数据库查询语言),而QUEL是Ingres数据库的核心组件,也是Codd与加州Berkeley大学合作开发的最重要的早期数据库管理系统。今天我们大量使用的很多RDBMS都源自Ingres。比如Microsoft SQL Server、Sybase以及PostgreSQL(Postgres = Post Ingres)。QUEL最终在80年代初被SQL所取代,而随之兴起的是Oracle、IBM DB2、SQL Server这些知名的关系型数据库管理系统。在关系型数据库系统当中两样东西最重要—RDBMS(DB-Engine)与SQL,前者是数据存储与处理的引擎,通过SQL这种“智能”的编程语言来实现对前者所控制的数据的操作与访问。

对象型数据库的兴起滞后于关系数据库大约10年。对象数据库的核心是面向对象,它的诞生是借鉴了面向对象的编程语言的OO特性来对复杂的数据类型及数据之间的关系进行建模,对象之间的关系是多对多,访问通过指针或引用来实现。通常而言OO类语言与OO型数据库结合得更完美,以医疗行业为例Object数据库的使用不在少数,合理使用的话也会效率更高(例如InterSystems的Caché数据库)。
二十一世纪的第一个十年内才冒出来的大数据类新型数据库确切地说是在数据爆炸性增长(数量、速率、多样性)条件下为了高效处理数据而出现的多种新的数据处理架构及生态系统,简单而言有三大类:

NoSQL
Hadoop
NewSQL

在之后的系列文章中,老孙会展开论述这些新型的大数据处理系统之间的优劣异同。

(4)20世纪90年代
20世纪90年代初,PC与互联网进入了全方位高速发展阶段。

1977年到2007年的三十年间,PC销售量增长到最初的2,600倍(从1977年的5万台,增长到2007年的1.25亿台)。2002年,网络传输数据达到1992年的86,000倍(见图2-2),数据的剧烈膨胀催生了在企业与机构当中广泛使用商业智能(Business Intelligence,BI)与数据仓库(Data Warehouse,DW)系统来对大量数据进行信息化管理,例如数据集成、数据仓库、数据清洗、内容分析等(商业智能与数据仓库可统称为BIDW,通常两者会协同工作,数据仓库为商业智能系统提供底层的数据存储支撑)。笔者2004年在Yahoo!战略数据服务部门工作的时候,Yahoo!已经建立了当时全球最大的数据仓库,每天从全球上万台Apache Web服务器汇总超过27TB的数据进行分析,为了提高数据清洗、提取、转换、加载(Extraction、Transformation、and Loading,ETL)的效率,我们几乎把整个Linux技术堆栈中与排序、搜索、压缩加解密相关的命令与函数库全部重写,并让它们支持在多台机器上并发分布式处理,大多数的函数效率提高了20~1,000倍之多。不过,即便如此,我们也只是能把原有的商业智能系统从做年报、季度报、月报,提高到天报甚至小时报,获得海量数据的实时分析与汇总依然是极度挑战的事情。不过,在2004年使用新的ETL工具与分布式系统架构来高速处理大量数据已经算是大数据的雏形了。

(5)21世纪第一个10年
过去的十年则让我们见证了移动互联时代的到来,以谷歌、Facebook、Twitter、BAT为代表的新互联网公司的兴起。

这些新型的互联网企业在搭建技术堆栈的时候有两个共通之处:LAMP+PC-Cluster。从科技发展史的角度看,这十年间值得一提的两项新兴技术都源自谷歌:一是早在2003年发布的第一篇论文The Google File System(GFS)8,GFS是谷歌为了提高在大规模PC集群中数据分布式存储与访问效率而设计的分布式文件系统;二是2004年发布的MapReduce(Simplified Data Processing on Large Clusters),它描述了一种面向大规模集群的数据处理与生成的编程模型。这两篇论文直接启发了Yahoo!于2004年请来Doug Cutting开发了后来大数据领域知名的开源分布式数据存储与处理软件架构Hadoop。与Hadoop同一时代涌现的还有NoSQL与NewSQL等新型的数据库处理系统。

NoSQL简单来说是采用与SQL尽可能兼容的方式实现区别于RDBMS方式的新型数据库,通常有如下类型(注:本文只是略作介绍,并不做详细展开):

键值数据库(KV Store)
列数据库(Columnar Store)
文档数据库(Document DB)
图数据库(Graph DB)
时序数据库(Time Series DB)

需要指出的是,在英文语境下KV Store从来都不是严格意义上的数据库,因为它实在是太简单了,它根本不需要完整的SQL支持,只是简单的API调用即可。它常见的场景例如作为缓存层使用,如秒杀等。

列数据库可以简单的认为是相对于RDBMS的行数据库而言的,旋转90度就成了列数据库,谷歌在开创性的使用列数据库方面,功不可没。
文档数据库则更多的是应对丰富的数据类型,从结构化到非结构化,不一而足。例如MongoDBO就是最流行的文档数据库。在大数据时代的今天,很多厂家甚至粗鲁的把文档数据库作为一种RDBMS的超集来使用,当然,这也是一件见仁见智的事情。还有很多知识图谱厂家的底层存储与查询引擎也用文档数据库来实现,结果就是它和RDBMS一样,也没有深度查询与计算的能力,或者说对关联数据进行穿透的能力。而图数据库就要应运而生了。

图数据库(Graph Database),在中文语境下,图(Graph)可能会被曲解为图片、图像。但是英文语境下,图是图论(Graph Theory)的图,它表达的就是一种空间拓扑结构。

图数据库善于表达高维的、动态的数据间的关联关系。在过去几年中,图数据库大有一种摆脱NoSQL的束缚而独立发展的趋势。因为图数据库解决了RDBMS和其它NoSQL/NewSQL所完全不能解决的问题:对动态、深度的数据库关联、穿透计算的挑战。

图数据库里的“图”是图论的“图”,它表达的是一种空间拓扑结构
传统数据库一旦进行表连接,就会因为多张表之间的笛卡尔乘积问题而导致计算复杂度指数级增加,进而处理速度大幅降低 。

传统关系型数据库
而图数据库则在数据存储与计算层避免了这种问题的发生,因此它在例如风险计算、风控计量、智能营销、行研、投研、资债、资管(大财富)等多个领域展露头角 —— 21世纪的第三个十年中,必将看见图数据库成为主流数据库。
Ultipa图数据库的应用场景
时序数据库并不是新生事物,早在20世纪末的时候的RRD(Round-Robin Database)就是典型的时序数据库。而21世纪第一个十年后Splunk开启的,结合着IOT物联网的兴起,时序数据库又获得了新生,加上了更多分布式等华丽的辞藻,但在本质上,并没有改变,所有的数据是按照时间戳来分片和存取的。时序数据库显然可以基于其它任何类型的数据库来实现,因此它在NoSQL的大类中,也最为偏门。
在后面的章节中,我们会就这些大数据、快数据和深数据的处理技术展开论述。

(6)当下,移动互联时代
移动互联时代的自然延伸就是我们今天所处在的万物互联时代(Internet of Things或Internet of Everything)。十几年前被学术界宣判已经走入死胡同的人工智能(Artificial Intelligence)在机器学习(Machine Learning)、深度学习(Deep Learning)等技术的推动下又在诸如图像视频、自然语言处理、数据挖掘、物流、游戏、无人驾驶汽车、自动导航、机器人、舆情监控等很多不同的领域获得了突破性的进展。其中值得一提的是谷歌的一款AI程序AlphaGo在2015年年底和2016年年初分别击败了欧洲围棋冠军职业二段选手樊麾以及韩国著名棋手李世石。这也标志着人工智能正在大步幅逼近甚至在不远的未来超越人类大脑的海量信息处理与预判能力。当然,我们今天所谓的AI,全部都在弱人工智能的范畴里面,也就是说在有限边界内、有限可能性条件下的机器算力来取代人类的重复性劳动。我们现在所有的AI相关的工作依然是严重依赖数据与算力的统计学意义上的弱智能。

AI、机器学习、深度学习、卷积神经元网络等技术的再一次得到高速发展并不意味着依赖它们就可以解决我们所有的问题,随着这些技术向各个垂直行业中的逐步渗透,我们甚至可以看到很多应用场景中对于如何掌控AI,白盒化AI有了更加明确的需求。例如在金融、互联网等领域中风控、反欺诈等环节就明确的要求所应用的AI技术要么白盒化(每一步的计算与操作是透明、可控的),要么会选择替代性技术。而图数据库、图计算+知识图谱的天然的可追溯性、白盒化可解释、可视化的特点意味着人工智能可以以增强智能(Augmented Intelligence)的方式向前开疆拓土。最近几年来,关于图神经网络、图嵌入的论文和工业实践风头无二,都与上面提到的机器学习、深度学习所遇到的挑战,因此被迫寻找新的突破方向息息相关。

关于图数据库最新的发展和应用研究,以及历史溯源,老孙之前已写文章详细阐述,有兴趣的读者可点击下面链接阅读。

Ultipa:Graph·课堂 | 数据库查询语言的进化(上)

zhuanlan.zhihu.com

数据的完整生命周期可分为五个阶段,见下图。通过对杂乱无章的数据整理得到信息,对信息提炼而成为知识,知识升华后成为(人类)可传承的智慧,人类又把智慧、知识与信息演变为可以赋予机器的智能。

从数据到智能
作为小结,我们回顾一下人类的发展史可以说是围绕着信息整合、处理的方式与手段在不断发展,我们一步步走向大数据,而当大数据成为常态的时候,大数据已经无处不在的融入我们的生活了。
大数据无处不在

文/ 老孙(孙宇熙:云计算、大数据、高性能存储与计算系统架构专家 )
·END·

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值