大数据发展历史

版权声明:未经允许,不得转载 https://blog.csdn.net/cincoutcin/article/details/80586050

1、大数据的发展历程

2008年被《自然》杂志专刊提出了BigData概念


萌芽阶段

20世纪90年代到21世纪的样子,数据库技术成熟,数据挖掘理论成熟,也称数据挖掘阶段。

突破阶段

2003——2006年,非结构化的数据大量出现,传统的数据库处理难以应对,也称非结构化数据阶段。

成熟阶段

2006——2009年,谷歌公开发表两篇论文《谷歌文件系统》和《基于集群的简单数据处理:MapReduce》,其核心的技术包括分布式文件系统GFS,分布式计算系统框架MapReduce,分布式锁Chubby,及分布式数据库BigTable,这期间大数据研究的焦点是性能,云计算,大规模的数据集并行运算算法,以及开源分布式架构(Hadoop)

应用阶段

2009年至今,大数据基础技术成熟之后,学术界及及企业界纷纷开始转向应用研究,2013年大数据技术开始向商业、科技、医疗、政府、教育、经济、交通、物流及社会的各个领域渗透,因此2013年也被称为大数据元年。


2、大数据技术的影响

国外:

2010年,美国总统办公室下属科学技术顾问委员会和信息技术顾问向奥巴马和国会提交《规划数字化未来》,报告提出”如何收集、保存、管理、分析、共享正成指数增长的数据是我们面临的一个挑战“

2012年3月,奥巴马签署并发布”大数据研究发展创新计划“

2012年7月,联合国发布白皮书《大数据促发展:挑战与机遇》,全球大数据研究进入前所未有的高潮期。

2013年5月,麦肯锡研究院发布研究报告《颠覆性技术:技术改变生活、商业和全球经济》并未列入大数据技术,其给出的解释是,大数据技术已成为其他技术的基石。


国内:

2013年4月14日,中央电视台邀请维克托.迈尔-舍恩伯格和阿比做客《对话》节目。

2012年中国计算机学会发布《2013年中国大数据技术与产业发展白皮书》

2015年9月,国务院引发了《促进大数据发展行动纲要》

2016年3月17日,国家”十三五“规划纲要发布,明确指出大数据发展相关事宜。



3、大数据的重大事件

从2008年开始到至今事件非常多,无论国内还是国外,在此我只举一例

2012年7月,阿里巴巴的管理层设立首席数据官一职,并推出”聚石塔“数据分享平台,为淘宝天猫上的电商及电商服务商提供数据云服务。


4、大数据的概念

概念:难以用常规的数据库工具获取、存储、管理、分析的数据集合。

特征:

1、数据量大:起始单位是PB级的。

1KB=1024B

1MB=1024KB

1GB=1024MB

1TB=1024GB

1PB=1024TB

1EB=1024PB

1ZB=1024EB

2、类型多:

结构化、板结构化、非结构化:网诺日志、音频、视频、图片、地理位置等信息混杂。

3、价值密度低:

获取数据的价值就像是淘金一般。

4、速度快时效高:

数据呈指数倍增长,时效性要求高,比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能的完成实时推荐。

5、永远在线:

大数据时代的数据是永远在线的,随时应用计算,这也是区别于传统的数据的最大特征。


5、大数据从哪来

1、搜索引擎服务

百度数据量1000PB,每天响应138个国家数十亿次请求,每日新增10TB

2、电子商务

3、社交网络

QQ:8.5亿用户,用4400台服务器存储用户产生的信息,压缩后的数据100PB,每天新增200~300TB

4、音视频在线服务

5、个人数据业务

6、地理信息数据

7、传统企业

8、公共机构

智慧城市:摄像头拍摄的图片,1080P高清网络摄像机一月产生1.8TB数据,大点的城市50万个摄像头,一个月3PB的数据量。

医疗、中国的气象系统。


6、大数据的挑战

1、技术挑战、安全挑战(黑客攻击)、运营商(法律缺失)的挑战。


7、大数据的存储与计算模式

存储:

面临的问题:数据量大、类型复杂(结构化、非结构化、半结构化)

关键技术:

1、分布式文件系统(高效元数据管理技术、系统弹性扩展技术、存储层级内的优化、针对应用和负载的存储优化技术、针对存储器件的优化技术)

2、分布式数据库

事务性数据库技术:NoSQL:(支持非关系数据库、具有多个节点分割和复制数据的能力、用最终一致性机制解决并发读操作与控制问题、充分利用分布式索引及内存提高性能)代表有:BigTable、HBase、MongoDB、Dynamo。

分析型的数据库技术:Hive 、Impala

3、大数据索引和查询技术

4、实时流式大数据存储与处理技术


计算:

面临的问题:数据结构特征、并行计算(以分布式文件为基础的Hadoop\以分布式内存缓存为基础的Spark)、数据获取(批处理\流处理)、数据处理类型(传统查询\数据挖掘分析计算)、实时响应性能、迭代计算、数据关联性(先map一下再reduce一下)。

关键技术

1、大数据查询分析计算模式与技术:HBase、Hive、Cassandra、Impala

2、批处理计算:Hadoop MapReduce、Spark

3、流式计算:Storm、Spark Steaming

4、图计算:Giraph、GraphX

5、内存计算:Spark、Hana(SAP公司全内存式分布式数据库系统)、Dremel


8、应用领域

1、智慧医疗(临床数据、公共卫生数据、移动医疗健康数据)(共享疾病案例,基因分类参考)

2、智慧农业(主要指依据商业需求进行农产品生产,降低菜残伤农概率)

3、金融行业:

精准的营销:根据可与习惯进行推销

风险管控:根据用户的交易流水实施反欺诈

决策支持:抵押贷款这一块,实施产业信贷的风险控制。

效率提升:加快内部数据处理。

产品设计:根据客户的投资行为设计满足客户需求的金融产品。

4、零售行业(对零售商来说:精准营销(降低营销成本,扩大营销额);对厂商:降低产品过剩)

5、电子商务行业

6、电子政务


阅读更多
换一批

没有更多推荐了,返回首页