大数据技术(1):大数据发展脉络

学习某一项技术,一定要了解它的来龙去脉,才能把握到它的本质以及它的未来。

一、大数据技术发展史:大数据的前世今生

        在2004年,Google前后发表了三篇论文,即大数据技术的“三驾马车”:分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable。分别是一个文件系统、一个计算框架和一个数据库系统。其本质思路是部署一个大规模的服务器集群,通过分布式的方式将海量数据存储在这个集群上,然后利用集群上的所有机器进行数据计算这样就不需要追求单个服务器的性能了。

        Doug Cutting阅读论文后在自己的产品上实现了GFS、MapReduce的功能,后面在2006年将这些大数据技术分离出来作为一个单独的技术,这就是Hadoop,包括了分布式文件系统HDFS和大数据计算引擎MapReduce。(PS:Hadoop的代码都是一些最基础的JAVA代码,理应要去研读掌握)

       Yahoo很快运用起了Hadoop,这时发现用MapReduce进行大数据编程太麻烦了,于是开发了类SQL的Pig。后面在2010年Facebook又发布了Hive,其支持SQL语法进行大数据计算(可以把SQL语句转化为MapReduce程序)。

        随后Hadoop周边产品开始出现,大数据生态体系渐成:专门将关系数据库中的数据导入导出到 Hadoop 平台的 Sqoop;针对大规模日志进行分布式收集、聚合和传输的 Flume;MapReduce 工作流调度引擎 Oozie 等。

        在Hadoop早期,MapReduce既是一个执行引擎,又是一个资源调度框架,服务器集群的资源调度管理就是由MapReduce完成,这显得太臃肿,于是在2012年有了一个新项目Yarn,把MapReduce两个功能分离出一个,现在,Yarn成为了大数据平台上最主流的资源调度系统

        同在2012年,伯克利AMP实验室的马铁博士发现MapReduce进行机器学习的性能很差,因为机器学习要迭代很多次,但MapReduce每执行一次计算都要重启一次作业,于是开发了Spark,后面逐渐替代了MapReduce。

        像MapReduce、Spark这类计算框架都被称作批处理计算,又被称为大数据离线计算。但还有另一类应用场景,如何城市监控等,这时候就有了Storm、Flink、Spark Streaming大数据流计算框架,流计算又称作大数据实时计算。其中Flink同时支持批处理计算和流式计算、

        除了大数据批处理和流处理,NoSQL系统主要处理的也是大规模海量数据的存储与访问,所以也被归为大数据技术。在2011年,涌现出HBase、Cassandra等优秀产品,其中HBase是从Hadoop中分离出来的、基于HDFS的NoSQL系统。

        此外,大数据要存入分布式文件系统(HDFS),要有序调度 MapReduce 和 Spark 作业执行,并能把执行结果写入到各个应用系统的数据库中,还需要有一个大数据平台整合所有这些大数据组件和企业应用系统。因此大数据技术体系如下图所示:

 

图1
图1

        

二、大数据应用发展史:从搜索引擎到人工智能

 

        搜索引擎时代 (代表产品:Hadoop) ==> 数据仓库时代(代表产品:Hive) ==> 数据挖掘时代==>机器学习时代

 

 


 

三、参考文献

李智慧,极客时间《从0开始学习大数据》1-3讲

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
近些年人工智能的发展脉络主要包括以下几个方面: 1. 深度学习技术的兴起:深度学习是一种基于神经网络的机器学习方法,通过多层神经元之间的连接来实现对大量数据的学习和处理。深度学习技术的兴起,使得机器学习技术能够更加高效地处理海量数据,并取得了在图像识别、语音识别、自然语言处理等领域的显著进展。 2. 大数据的普及:大数据技术的普及,为机器学习和人工智能的应用提供了更加广泛的数据基础。随着互联网和物联网技术的发展,数据的规模和种类也越来越多样化,这为人工智能技术的应用提供了更加广泛的应用场景。 3. 人工智能芯片技术的发展:人工智能芯片是一种专门用于机器学习和人工智能应用的芯片,其设计结构与传统芯片不同。近年来,人工智能芯片技术得到了飞速的发展,这使得机器学习和人工智能技术的应用成本大幅降低,同时也提高了其性能和效率。 4. 人工智能与物联网的结合:物联网技术使得各种设备和物品都能够被连接到互联网上,并能够实现互联互通。人工智能技术与物联网的结合,可以实现对各种设备和物品的智能化管理和控制,这为智慧城市、智能家居等领域的发展提供了有力支持。 5. 人工智能的应用场景不断拓展:人工智能技术已经逐渐渗透到各个领域,包括医疗、金融、制造业、交通运输等领域。随着人工智能技术的不断发展,其应用场景也在不断拓展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值