Hadoop学习

最新推荐文章于 2022-08-15 15:21:42 发布

一枕雪

最新推荐文章于 2022-08-15 15:21:42 发布

阅读量685

点赞数

分类专栏： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/koalacoco/article/details/62040780

版权

Hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

初识Hadoop

Hadoop主要由两个部分构成：

HDFS分布式文件系统
MapReduce分布式数据分析处理系统

HDFS

解决大数据时代单磁盘存储数据过大，读取缓慢问题。

适用场景

一次写入，多次读取(查询)。不支持并发写入、修改。
运行在普通硬件上
适用于高吞吐量应用，不适用于低时间延迟(几十毫秒内)应用
不适用于大量小文件，文件系统所能存储的文件总数受限于namenode的内存容量。小文件也占用一个块，小文件越多（1000个1k文件）数据块越多，nameNode压力越大。(HDFS中小于一个块大小的文件不会占据整个块的空间)？？

数据块

block分布(黄色方块为数据节点)

数据块是存储的最小单位，HDFS的块(block)默认为64MB。文件被划分为块大小的多个块分别存储在多个任意节点磁盘上。

namenode 和 datanode

交互过程

HDFS集群有两类节点以 namenode(管理者：一个)-datanode(工作者：多个) 模式运行，上图反映了NameNode和DataNode的交互过程。

namenode
用于管理所有文件和目录树(文件系统命名空间)与块的映射，并通过命名空间镜像文件和编辑日志文件在磁盘保存。同时通过记录每个文件的块与应节点映射信息保存在内存中，每次集群启动时由数据结点重新创建。

datanode
为工作结点，负责存储、检索数据块，受namenode调度并定期向namenode发送存储块的列表(a Heartbeat(心跳) and a Blockreport )。

namenode节点容错机制（两种）
第一种机制，配置namenode在多个系统节点保存元数据持久状态。各节点实时同步(原子操作)
第二种机制，备用namenode，有滞后性会丢失数据。

联邦HDFS
2.X版本以后支持联邦HDFS解决内存横向扩展限制，允许添加多个namenode，分别管理各自的目录、文件、数据块的数据块池。每个namenode相互独立互不影响。

高可用性(HA)支持活动-备用(active-standby)namenode
用于实现一个namenode失效快速恢复，当一个活动namenode失效，备用namenode会接替它的工作。

故障切换与规避

权限模式
Hadoop权限模式分为三种：只读权限(r)、写入权限(w)、可执行权限(x)
每个文件和目录都有所属用户(owner)、所属组别(group)、模式(mode)。
权限检查
超级用户不需要权限检查

命令行操作接口

Hadoop文件系统

JAVA API

I/O操作

数据完整性

MapReduce

图1：MapReduce工作流程图

MapReduce工作原理

从HDFS存储中获取输入数据，输入数据会被划分为n份(n由用户定义)，如[图1]，被划分为0~4个split(分片)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop学习

初识HadoopHadoop主要由两个部分构成：HDFS分布式文件系统MapReduce分布式数据分析处理系统HDFS解决大数据时代单磁盘存储数据过大，读取缓慢问题。适用场景一次写入，多次读取(查询)。不支持并发写入、修改。运行在普通硬件上适用于高吞吐量应用，不适用于低时间延迟(几十毫秒内)应用不适用于大量小文件，文件系统所能存储的文件总数受限于na
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。