1.推荐书籍
基础—《hadoop权威指南》
apache hadoop官网
升级版—《hadoop技术内幕》
2.组件
核心组件:
- MapReduce
- HDFS
组件:
- YARN
- HBase
- Hive
- Pig
- Sqoop
- Zookeeper
- Flume
- Oozie
3.HDFS
- 一次写入,多次读取
- 主节点(Namenode)—大型文件分割成各个小部分(数据块),主节点知道从节点上的哪个数据块可以组成完整的文件。
- 主节点与从节点进行持续的交流,知道从节点的可用性。
- 从节点(DataNode)—提供心跳信息,无心跳的时候,卸载此从节点。
HDFS保持正确数据的措施:
- 事务日志
- 验证校验
- 数据块—复制到若干个从节点上
- 数据管道—在不同服务器上移动
4.数据块
- 本地:一个数据块—一个副本
- 第二个副本—另一个机架—防止工作崩溃
- 第三个副本—远程相同的机架—不同的服务器
- 其余的副本—随机放在远程或者本地的集群中
5.MapReduce
- 处理文本解析,处理web日志,读取海量原始数据资源
- 在无需分析的时候表现最好
6.YARN
资源协调者—资源管理者和应用管理者
7.HBase
- 列式数据库
- Hbase和RDBMS重要区别—版本追踪
8.与Hadoop交互的工具
- Pig Pig Latin
- Sqoop SQL to Hadoop
- Zookeeper
- Flume
- Oozie