初识Hadoop
Hadoop 概述
Hadoop 生态系统
Hadoop 核心组件
Hadoop 发行版的选择
Hadoop 优势
Hadoop 发展史
Hadoop概述之Hadoop名字的
Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名。
Nutch,Hadoop: Doug Cutting
Spring:
学习一个新的框架,我的风格是直接查看该项目的官网地址:
Hadoop
Hive
Apache社区的顶级项目: xxxx.apache.org
hadoop.apache.org
hive.apache.org
hbase.apache.org
spark.apache.org
flink.apache.org
storm.apache.org
Hadoop概述之Hadoop介绍
Hadoop:提供分布式的存储(一个文件被拆分成很多个块,并且以副本的方式存储在各个节点中)和计算。
是一个分布式的系统基础架构:用户可以在不了解分布式底层细节的情况下进行使用。
分布式文件系统: HDFS实现将文件分布式存储在很多服务器上。
分布式计算框架: MapReduce实现在很多机器上分布式并行计算。
分布式资源调度框架: YARN实现集群资源管理以及作业的调度。
Hadoop核心组件之分布式文件系统HDFS
源自于Google的GFS论文,论文发表于2003年1月。
HDFS是GFS的克隆版。
HDFS特点:扩展性&容错性&海量数量存储。
将文件切分成指定大小的数据块并以多副本的存储在多个机械上。
数据切分,多副本,容错等操作对用户是透明的。
Hadoop核心组件之分布式计算框架MapReduce
源自于Google的MapReduce论文,论文发表于2004年12月。
MapReduce是Google MapReduce的克隆版。
MapReduce特点:扩展性&容错性&海量数据离线处理。
Hadoop核心组件之资源调度系统YARN
YARN: Yet Another Resource Negotiator
负责整个集群资源的管理和调度。
YARN特点: 扩展性&容错性&多框架资源统一调度。
Hadoop核心组件之资源调度系统YARN
Hadoop优势之高可靠性
数据存储: 数据块多副本。
数据计算: 重新调度作业计算。
Hadoop优势之其他:
存储在廉价机器上,降低成本。
成熟的生态圈。
狭义Hadoop VS 广义Hadoop
广义的Hadoop: 指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,Hadoop是其中最重要最基础的一个部分;生态系统中的每一子系统只解决某一个特定的问题域(甚至可能很窄),不搞统一型的一个全能系统,而是小而精的多个小系;
Hadoop生态系统
Hadoop生态系统的特点:
开源,社区活跃。
囊括了大数据处理的方方面面。
成熟的生态圈。
常见的Hadoop发行版:
Apache
优点: 纯开源
缺点: 不同版本/不同架构之间整合 jar冲突…吐血
CDH: https://www.cloudera.com/
优点: cm(cloudera manager)通过页面一键安装各种框架,升级。
Hortonworks: HDP 企业发布自己的数据平台可以直接基于页面框架进行改造
优点: 原装Hadoop,纯开源,支持tez。
缺点: 企业级安全不开源。
文件,块,副本:
文件: test.log 200M
块(block):默认的blocksize是128M,2个块=1个128M+1个72M。
副本: HDFS默认3副本。
node1: blk1 blk2 X
node2:blk2
node3:blk1 blk2
node4
node5: blk1
Hadoop核心组件之分布式文件系统HDFS