浅谈Hadoop

最新推荐文章于 2023-02-11 17:07:41 发布

一璐与妮同行

最新推荐文章于 2023-02-11 17:07:41 发布

阅读量195

点赞数

分类专栏： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42368607/article/details/99422557

版权

Hadoop 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

什么叫做Hadoop？

百度百科：
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

在这里插入图片描述
Hadoop的三大核心：

HDFS：分布式文件系统
MapReduce：分布式计算框架，进行数据处理，运行在Yarn上
YARN：资源管理器
（一旦装完Hadoop，就有了HDFS,MapReduce,Yarn）

HDFS：默认端口号50070

默认情况下有一个NameNode(元数据节点)，一些DataNode(数据节点)组成；
通常情况将NameNode设为两个，这两个NameNode之间数据同步依靠JournalNode
在这里插入图片描述

1.X版本，每个Block64M；
2.X版本，每个Block128M
防止宕机，每个block块有3个副本

NameNode中存储文件名，文件大小，位置等信息
DataNode中存储文件具体的内容
SecondaryNode用于合并元数据，它不是第二个NameNode

MapReduce

对数据进行按行分割，map用于拆分，reduce用于计算；每一行的数据由一个map处理。
数据拆分后，重新洗牌，reduce接收到的式key-value集合
数据上传到HDFS文件系统上

Zookeeper

多态服务器，多个客户端构成。服务器之间会用过“推选”，选出一个leader，若这台leader服务器修改过后会通知其他的服务器进行修改，因为集群内要保持一致，客户端请求任意一台服务器得到的数据都是一样的

（对Zookeeper的操作主要就是对它节点树的操作）
在这里插入图片描述
节点的四种类型：
持久节点
持久顺序节点
临时节点
临时顺序节点

HBase
非关系型数据库，列式存储
HRegion是HBase数据存储和管理的基本单位，一个表可以包含一个或多个HRegion
每张表都有多个Region，Region可以存在不同的服务器上

Hive 数据仓库，数据上传到HDFS上，所以Hive又是基于Hadoop的，将HQL转成MapReduce，Hive处理的数据存在HDFS中，执行程序运行在Yarn上

Kafka 分布式消息订阅系统，依赖于Zookeeper
生产者（producer）发布消息到kafka broker
消费者（consumer）从kafka broker拉取数据
在主题（topic）中存放消息类别
在这里插入图片描述

一璐与妮同行

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。