Hadoop入门简介

本文详细介绍了Hadoop生态系统的核心组件及其工作原理,包括MapReduce、HDFS、YARN、HBase等,并深入探讨了数据块的存储机制、MapReduce的高效处理方式以及与Hadoop交互的工具如Pig、Sqoop、Zookeeper等。
摘要由CSDN通过智能技术生成

1.推荐书籍

基础—《hadoop权威指南》
apache hadoop官网

升级版—《hadoop技术内幕》

2.组件

核心组件:

  1. MapReduce
  2. HDFS

组件:

  1. YARN
  2. HBase
  3. Hive
  4. Pig
  5. Sqoop
  6. Zookeeper
  7. Flume
  8. Oozie

这里写图片描述

3.HDFS

  1. 一次写入,多次读取
  2. 主节点(Namenode)—大型文件分割成各个小部分(数据块),主节点知道从节点上的哪个数据块可以组成完整的文件。
  3. 主节点与从节点进行持续的交流,知道从节点的可用性。
  4. 从节点(DataNode)—提供心跳信息,无心跳的时候,卸载此从节点。

HDFS保持正确数据的措施:

  1. 事务日志
  2. 验证校验
  3. 数据块—复制到若干个从节点上
  4. 数据管道—在不同服务器上移动

4.数据块

  1. 本地:一个数据块—一个副本
  2. 第二个副本—另一个机架—防止工作崩溃
  3. 第三个副本—远程相同的机架—不同的服务器
  4. 其余的副本—随机放在远程或者本地的集群中

5.MapReduce

  1. 处理文本解析,处理web日志,读取海量原始数据资源
  2. 在无需分析的时候表现最好

6.YARN

资源协调者—资源管理者和应用管理者

7.HBase

  1. 列式数据库
  2. Hbase和RDBMS重要区别—版本追踪

8.与Hadoop交互的工具

  1. Pig Pig Latin
  2. Sqoop SQL to Hadoop
  3. Zookeeper
  4. Flume
  5. Oozie
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值