Hadoop学习路线

随着大数据的盛行,Hadoop也流行起来。面过一些公司,包括开发Hadoop :如Cloudera, Hortonworks, MapR, Teradata, Greenplum, Amazon EMR, 使用Hadoop的除了Google,数不胜数了.

Hadoop 2.0转型基本无可阻挡,今年下半年要正式发布了,它的出现让大家知识体系都 要更新了。Hadoop1.0搞了8年才发布,2.0不到2年就出来了。2.0的核心是YARN,它的 诞生还是有趣的故事



YARN介绍
Hadoop 生态系统 SQL on Hadoop Hadoop Summit 书籍和Paper

“Hadoop: The Definitive Guide”: 里面内容非常好,既有高屋建瓴,又有微观把握,基本适用于1.X版本。比如mapreduce各个子阶段,Join在里面也有代码实现,第三版

Google的三辆马车,GFS, MapReduce, BigTable Google的新三辆马车:Caffeine、Pregel、Dremel

SIGMOD, VLDB Top DB conference


入门:

  1. 知道MapReduce大致流程,Map, Shuffle, Reduce
  2. 知道Combiner, partition作用,设置Compression
  3. 搭建Hadoop集群,Master/Slave 都运行那些服务 NameNode, DataNode, JobTracker, TaskTracker
  4. Pig, Hive 简单语法,UDF写法

Hadoop 2.0新知识; HDFS2 HA,Snapshot, ResourceManager,ApplicationsManager, NodeManager


进阶: 算法: Blog

关注Cloudera, Hortonworks, MapR

相关系统
  • 数据流系统: Storm

  • 内存计算系统: Spark and Shark

  • 交互式实时系统:Cloudera Impala, Apache Drill (Dremel开源实现),Tez (Hortonworks)

公司列表: 其他
  • Hadoop进化目标:开发部署傻瓜化,性能更强劲,最后为程序员标配。
  • 核心都是被寡头控制的,记得一边文章说一流的公司卖标准,二流的公司卖技术,三 流的公司卖产品,H和C有最多的committer,自然就影响着整个Hadoop社区。
  • 技术就是日新月异,还是多看看那些公司的博客,关注感兴趣的新产品,Hortonworks Stack
  • 在Hadoop系统中从头裸写MapReduce不现实了,ETL基本靠Hive,Pig, 还有Cascading,Scalding
  • MapReduce并不是最优的,仅适合批处理,很多问题:JVM的启动overhead很大,小 Job更明显,数据必须先存储,不适合迭代计算,延迟高。DB学术圈讨论很久tradeoff 了,MapReduce: 一个巨大的倒退

转载于:https://www.cnblogs.com/gala1021/p/8552137.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值