初认hadoop

最新推荐文章于 2024-10-18 15:52:28 发布

我去前面探个路

最新推荐文章于 2024-10-18 15:52:28 发布

阅读量190

点赞数

分类专栏： hadoop 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qbs946/article/details/78290119

版权

hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

什么是hadoop？

hadoop = teh hadoop projects

hadoop体系架构生态圈主要包含common，avro，mapreduce，hdfs,pig,hive(数据仓库),hbase，zookeeper,oozie（任务调度），sqoop（数据转移hive ↔ mysql）等组件

hadoop核心： hdfs（分布式文件系统）+ mapreduce （计算）+yarn(运算资源调度系统，管理硬件资源，内存/cpu等)。

HDFS架构

hdfs中的一些常见名词

block：一个文件分块，默认64M。当写入一个文件到 HDFS 时，它被切分成数据块，块大小是由配置文件 hdfs-default.xml 中的参数 dfs.blocksize （自 hadoop-2.2 版本后，默认值为 134217728字节即 128M，可以在 hdfs-site.xml 文件中改变覆盖其值。

namenode：保存整个文件系统的目录信息，文件信息以及文件相应的分块信息。（单点，提供服务的namenode只有一个）

datanode：用于存储blocks（文件块）。

hdfs的HA策略：namenode一旦宕机，整个文件系统将无法工作，如果namenode中的数据丢失，整个文件系统也就丢失了，从2.x开始，hdfs支持namenode的active-atandy模式（主从）。

在hdfs上的文件存储

dbossdat1001.txt 600G

同一个文件快在不同节点中有多个副本，当某个节点的数据失效时，可以从另外的节点获取到文件的内容，当数据失效时，副本有效个数会减少，hadoop可以自动侦测到这一点，从有效的副本复制，自动恢复到正常的副本个数。

hdfs中的namenode和datanode

如上图所示，在hdfs中，分为两个部分：namenode和datanode，其中那么node只有一个节点，datanode则有多个节点。但从hadoop2.0版本之后开始，namenode有主从两个节点防止节点挂掉。

hdfs总的架构图

mapreduce

mapreduce编程模型

总图中可以看到，mapreduce是将大任务分割成若干的小任务，然后在汇总得出结果。

我去前面探个路

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。