[Hadoop培训笔记]01-Hadoop开源软件及其生态系统介绍

标签: hadoop培训开源力量笔记
2363人阅读 评论(0) 收藏 举报
分类:

注:开源力量Hadoop Development网络培训,链接:http://new.osforce.cn/course/52  个人笔记,不具参考性。


Hadoop实际用途主要是:运维、开发

Hadoop组件:common、HDFS、MapReduce(mrv1,mrv2)

Google核心技术(分四类,括号里是Hadoop对应组件)

  • ​分布式基础设施:GFS(HDFS)、Chubby(Zookeeper)、Protocol Buffer
  • 分布式大规模数据处理:MapReduce(MapReduce(mrv1,mrv2))、Sawzall
  • 分布式数据库技术:BigTable(HBase)、Sharding
  • 数据中心优化技术:数据中心高温化、12V电池和服务器整合
  • Hadoop特点:open source, reliability, availability, scalability, high efficiency

Hadoop core:HDFS组件、MapReduce组件、Common组件


下图是HDFS架构图


下图是MapReduce示意图



下图是Hadoop生态系统



Hadoop发行版:

  • Cloudera CDH (重要组件:Impala)
  • Hortonworks HDP (重要组件:TEZ、YARN)
  • Intel Distribution (重要组件:Flume、Sqoop、Mahout)
  • IBM BigInsight
Hadoop版本选择:Hadoop 1.x,Hadoop 2.x
  • namenode,HA(0.21.x, 0.22.x, 2.x)
  • HDFS Federation & YARN (0.23.x, 2.x)

推荐资料:

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:644890次
    • 积分:7693
    • 等级:
    • 排名:第2723名
    • 原创:105篇
    • 转载:134篇
    • 译文:4篇
    • 评论:140条
    Disclaimer
    The blog articles expressed here are my own opinions and do not necessarily represent those of current or past employers.
    博客专栏
    最新评论