大数据的发展历史


大数据将近30年的发展历史,经历几多阶段。

1 启蒙阶段:数据仓库的出现

20世纪90年代,商业智能(也就是我们熟悉的BI系统)诞生,它将企业已有的业务数据转化成为知识,帮助老板们进行经营决策。比如零售场景中:需要分析商品的销售数据和库存信息,以便制定合理的采购计划。
显然,商业智能离不开数据分析,它需要聚合多个业务系统的数据(比如交易系统、仓储系统),再进行大数据量的范围查询。而传统数据库都是面向单一业务的增删改查,无法满足此需求,这样就促使了数据仓库概念的出现。
传统的数据仓库,第一次明确了数据分析的应用场景,并采用单独的解决方案去实现,不依赖业务数据库。

2 技术变革:Hadoop诞生

2000年左右,PC互联网时代来临,同时带来了海量信息,很典型的两个特征:
数据规模变大:Google、雅虎等互联网巨头一天可以产生上亿条行为数据。
数据类型多样化:除了结构化的业务数据,还有海量的用户行为数据,以图像、视频为代表的多媒体数据。
很显然,传统数据仓库无法支撑起互联网时代的商业智能。2003年,Google公布了3篇鼻祖型论文(俗称「谷歌3驾马车」),包括:分布式处理技术MapReduce,列式存储BigTable,分布式文件系统GFS。这3篇论文奠定了现代大数据技术的理论基础。
苦于Google并没有开源这3个产品的源代码,而只是发布了详细设计论文。2005年,Yahoo资助Hadoop按照这3篇论文进行了开源实现,这一技术变革正式拉开了大数据时代的序幕。
Hadoop相对于传统数据仓库,有以下优势:
完全分布式,可以采用廉价机器搭建集群,完全可以满足海量数据的存储需求。
弱化数据格式,数据模型和数据存储分离,可以满足对异构数据的分析需求。
随着Hadoop技术的成熟,2010年的Hadoop世界大会上,提出了「数据湖」的概念。
数据湖是一个以原始格式存储数据的系统。
企业可以基于Hadoop构建数据湖,将数据作为企业的核心资产。由此,数据湖拉开了Hadoop商业化的大幕。

3 数据工厂时代:大数据平台兴起

商用Hadoop包含上十种技术,整个数据研发流程非常复杂。为了完成一个数据需求开发,涉及到数据抽取、数据存储、数据处理、构建数据仓库、多维分析、数据可视化等一整套流程。这种高技术门槛显然会制约大数据技术的普及。
此时,大数据平台(平台即服务的思想,PaaS)应运而生,它是面向研发场景的全链路解决方案,能够大大提高数据的研发效率,让数据像在流水线上一样快速完成加工,原始数据变成指标,出现在各个报表或者数据产品中。

4 数据价值时代:阿里提出数据中台

2016年左右,已经属于移动互联网时代了,随着大数据平台的普及,也催生了很多大数据的应用场景。
此时开始暴露出一些新问题:为了快速实现业务需求,烟囱式开发模式导致了不同业务线的数据是完全割裂的,这样造成了大量数据指标的重复开发,不仅研发效率低、同时还浪费了存储和计算资源,使得大数据的应用成本越来越高。
极富远见的马云爸爸此时喊出了「数据中台」的概念,「One Data,One Service」的口号开始响彻大数据界。数据中台的核心思想是:避免数据的重复计算,通过数据服务化,提高数据的共享能力,赋能业务。
 

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
⼤数据发展历史 1、⼤数据的发展历程 、⼤数据的发展历程 2008年被《⾃然》杂志专刊提出了BigData概念 萌芽阶段: 20世纪90年代到21世纪的样⼦,数据库技术成熟,数据挖掘理论成熟,也称数据挖掘阶段。 突破阶段: 2003——2006年,⾮结构化的数据⼤量出现,传统的数据库处理难以应对,也称⾮结构化数据阶段。 成熟阶段: 2006——2009年,⾕歌公开发表两篇论⽂《⾕歌⽂件系统》和《基于集群的简单数据处理:MapReduce》,其核⼼的技术包括分布式⽂ 件系统GFS,分布式计算系统框架MapReduce,分布式锁Chubby,及分布式数据库BigTable,这期间⼤数据研究的焦点是性能,云计 算,⼤规模的数据集并⾏运算算法,以及开源分布式架构(Hadoop) 应⽤阶段: 2009年⾄今,⼤数据基础技术成熟之后,学术界及及企业界纷纷开始转向应⽤研究,2013年⼤数据技术开始向商业、科技、医疗、政 府、教育、经济、交通、物流及社会的各个领域渗透,因此2013年也被称为⼤数据元年。 2、⼤数据技术的影响 、⼤数据技术的影响 国外: 2010年,美国总统办公室下属科学技术顾问委员会和信息技术顾问向奥巴马和国会提交《规划数字化未来》,报告提出"如何收集、保 存、管理、分析、共享正成指数增长的数据是我们⾯临的⼀个挑战" 2012年3⽉,奥巴马签署并发布"⼤数据研究发展创新计划" 2012年7⽉,联合国发布⽩⽪书《⼤数据促发展:挑战与机遇》,全球⼤数据研究进⼊前所未有的⾼潮期。 2013年5⽉,麦肯锡研究院发布研究报告《颠覆性技术:技术改变⽣活、商业和全球经济》并未列⼊⼤数据技术,其给出的解释是,⼤数 据技术已成为其他技术的基⽯。 国内: 2013年4⽉14⽇,中央电视台邀请维克托.迈尔-舍恩伯格和阿⽐做客《对话》节⽬。 2012年中国计算机学会发布《2013年中国⼤数据技术与产业发展⽩⽪书》 2015年9⽉,国务院引发了《促进⼤数据发展⾏动纲要》 2016年3⽉17⽇,国家"⼗三五"规划纲要发布,明确指出⼤数据发展相关事宜。 3、⼤数据的重⼤事件 、⼤数据的重⼤事件 从2008年开始到⾄今事件⾮常多,⽆论国内还是国外,在此我只举⼀例 2012年7⽉,阿⾥巴巴的管理层设⽴⾸席数据官⼀职,并推出"聚⽯塔"数据分享平台,为淘宝天猫上的电商及电商服务商提供数据云服 务。 4、⼤数据的概念 、⼤数据的概念 概念:难以⽤常规的数据库⼯具获取、存储、管理、分析的数据集合。 特征: 1、数据量⼤:起始单位是PB级的。 1KB=1024B 1MB=1024KB 1GB=1024MB 1TB=1024GB 1PB=1024TB 1EB=1024PB 1ZB=1024EB 2、类型多: 结构化、板结构化、⾮结构化:⽹诺⽇志、⾳频、视频、图⽚、地理位置等信息混杂。 3、价值密度低: 获取数据的价值就像是淘⾦⼀般。 4、速度快时效⾼: 数据呈指数倍增长,时效性要求⾼,⽐如搜索引擎要求⼏分钟前的新闻能够被⽤户查询到,个性化推荐算法尽可能的完成实时推荐。 5、永远在线: ⼤数据时代的数据是永远在线的,随时应⽤计算,这也是区别于传统的数据的最⼤特征。 5、⼤数据从哪来 、⼤数据从哪来 1、搜索引擎服务 百度数据量1000PB,每天响应138个国家数⼗亿次请求,每⽇新增10TB 2、电⼦商务 3、社交⽹络 QQ:8.5亿⽤户,⽤4400台服务器存储⽤户产⽣的信息,压缩后的数据100PB,每天新增200~300TB 4、⾳视频在线服务 5、个⼈数据业务 6、地理信息数据 7、传统企业 8、公共机构 智慧城市:摄像头拍摄的图⽚,1080P⾼清⽹络摄像机⼀⽉产⽣1.8TB数据,⼤点的城市50万个摄像头,⼀个⽉3PB的数据量。 医疗、中国的⽓象系统。 6、⼤数据的挑战 、⼤数据的挑战 1、技术挑战、安全挑战(⿊客攻击)、运营商(法律缺失)的挑战。 7、⼤数据的存储与计算模式 、⼤数据的存储与计算模式 存储: ⾯临的问题:数据量⼤、类型复杂(结构化、⾮结构化、半结构化) 关键技术: 1、分布式⽂件系统(⾼效元数据管理技术、系统弹性扩展技术、存储层级内的优化、针对应⽤和负载的存储优化技术、针对存储器件的优 化技术) 2、分布式数据库 事务性数据库技术:NoSQL:(⽀持⾮关系数据库、具有多个节点分割和复制数据的能⼒、⽤最终⼀致性机制解决并发读操作与控制问 题、充分利⽤分布式索引及内存提⾼性能)代表有:BigTable、HBase、MongoDB、Dynamo。 分析型的数据库技术:Hive 、Impala 3、⼤数据索引和查询技术 4、实时流式⼤数据存储与处理技术 计算: ⾯临的问题:数据结构特征、并⾏计算(以分布式⽂件为基础的Hadoop\以分布式内存缓存为基础的Spa

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值