hadoop生态系统_Hadoop生态系统综合1

今天心情不错,所以就整一个hadoop生态系统框架图:

2d21d05b4b7fb8e102409d61f74a8b0e.png

通过flume,kafka,sqoop收集海量数据,存储到分布式文件系统hdfs中。

分布式计算MapReduce对hdfs中的数据进行ETL,分析等操作。

通过Hive对MapReduce进行封装成HQL可以大大减轻编程人员的工作量。

以上分析计算都运行在资源调度平台Yarn中。

由于业务在多台服务器中进行,需要zookeeper进行管理。

本文包含内容:

管理工具:zookeeper

采集部分:flume,sqoop,kafka

存储部分:HDFS

资源调度:YARN

分布式计算:MapReduce

封装:Hive

官网地址:

zookeeper:https://zookeeper.apache.org/

hadoop:https://hadoop.apache.org/

flume:https://flume.apache.org/

关于Flume对接kafka采集用户日志以及sqoop采集用户业务数据的过程参考我的一篇文章:用户数据采集分析

HDFS

分布式文件存储系统

优点:存储规模大,高容错,低成本

缺点:实时性差,无法高效存储小文件,不支持随机修改,只支持追加

73d46e0ae962c9d4d006040cc185376b.png

Hdfs文件块(block)大小:128MB(10ms/(1%)*100MB/s)

c75e938e817ed29de8a0fc5c2b0cf365.png

常用命令:

2851c938c8cd72b7cd17a3c379e65e90.png

hdfs读写数据和网络拓扑可以参考我之前的另一篇文章:一文折服面试官-HDFS分布式文件存储系统读写过程

机架感知: 

feeb75f58f5a88237260fbf3b9079f14.png

HDFS小文件处理:

(1)har小文件归档

(2)Combinetextinputformat

(3)开启jvm重用

YARN

MR运行需要yarnRunner向resourcemanager申请一个application,resourcemanager会向yarnRunner返回application提交路径......

整个原理图:

abd09db78dc88d1ea1863aecb02bdf11.png

Zookeeper

Zookeeper=文件系统+通知机制

2e7a1c26150abaf3fb1eb221da27959a.png

文件结构:

6e6f7f5552a071aa41a5f0d97c36af84.png

监听原理:

85d6abf4e8cbf6697eaf4c1316e40eb1.png

选举机制:少数服从多数,墙头草,leader,follower

半数机制:半数以上存活,集群可用。Zookeeper适合安装奇数台服务器

常用命令: 

ec6becab1038a0d30d28643cb6f3e976.png

写数据流程:

e86d45a8947bf3477eec452563c4d487.png

累了,剩下的下一次继续。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值