hadoop 大数据技术会议见闻

最新推荐文章于 2019-01-08 07:32:10 发布

Michael_Shentu

最新推荐文章于 2019-01-08 07:32:10 发布

阅读量898

点赞数

分类专栏： Hadoop分布式系统

本文链接：https://blog.csdn.net/shenxiaoming77/article/details/17557721

版权

Hadoop分布式系统专栏收录该内容

19 篇文章 0 订阅

订阅专栏

分享下这次在北京参加本月12月5， 6日举行的中国大数据技术会议的一些见闻和感触。大数据技术大会前身是2008年开始每年举办一次的hadoop技术会议。这几年随着hadoop平台在中国互联网等行业应用的越来越广泛，以及这两年大数据这个名词越来越热，各行业都掀起了大数据概念潮流，于是hadoop技术大会也随之改名为大数据技术大会，旨在为广大开发者提供一次大数据行业的讨论交流学习的机会，而不仅仅只局限于hadoop分布式处理这个话题，而从目前的形式看，各行业的数据量呈爆炸式增长，如何处理大数据确实也是接下来许多公司有待挖掘的金矿，同时当前许多分布式数据分析处理技术也如雨后春笋一般冒出来，Tez，Spark，Impala，MPI...越来越的各种处理模型让我们眼花缭乱，同时hadoop作为一种应用广泛的批处理计算模式，它本身也发生了巨大的变化，hadoop本身的进化一定程度上代表了当前大数据处理技术的发展方向，从单一的大数据处理模型上升到统一的分布式集群管理平台，达到资源的优化分配以及多种数据处理模型的并存，作为一名hadoop 2.0 即Yarn平台下的开发人员以及机器学习的爱好者，简要的说下个人在本次大数据会议上的一些见闻和获得启示。

当前大数据这个概念，不仅仅局限在我们熟悉的互联网行业，其他许多行业内的一些领先的企业，如通信行业的移动华为等，都在会议上提出了各自的大数据处理方案。像移动，将目光不仅仅局限在大数据量的存储和统计，而且在此基础上基于机器学习领域的一些聚类，关联规则等技术，为移动用户推出更加精准的电信增值业务。从这一点可以看出，大数据时代机器学习数据挖掘深度学习等在深度挖掘大数据的内在价值将会有更大的前景和应用，因此一些基于分布式模型的数据挖掘机器学习平台应运而生，有基于mapreduce批处理计算的mahout平台，也有基于分布式内存计算模型的spark 等等，而在本次大会上，spark是yarn2.0之外的另一个备受瞩目的新计算模型。图计算，迭代计算流计算等等似乎spark天生就很强大有点当前苹果智能机的概念，各种功能集于一身。前段时间工作之余开始spark的学习，之后会将个人的一些学习中的见解和问题放在博客中，期待各位的讨论交流。

YARN，大家已是非常熟悉了，随着hadoop 2.2 稳定版的发布越来越多的公司和个人开发者使用YARN平台。未来的趋势，mapreduce spark storm mpi等等各种处理模型将以application的模式集成于yarn平台，有yarn进行计算资源的管理。yarn将更好地发挥分布式操作系统的角色。

传统的机器学习数据挖掘也已进入了分布式计算的时代，这就要求我们的处理平台能够很好地支持图计算迭代计算等等，而传统的mahout 由于mapreduce的运行机制所限制，在流计算迭代计算以及时间消耗上存在天生的不足，因此伯克利大学研发的spark内存计算系统，我个人相信会有广泛的前景，目前spark 就想hadoop 刚在国内开始兴起时那会，许多方面还有待完善，但未来的数据挖掘深度学习等领域一定有spark的一席之地。

总结来说，