Hadoop的HDFS

最新推荐文章于 2024-07-01 12:58:04 发布

帅气的程序员

最新推荐文章于 2024-07-01 12:58:04 发布

阅读量228

点赞数

文章标签： hdfs 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hr787753/article/details/54971789

版权

大数据的特点

1.TB,PB类别的数据

2.数据是以高速增长的趋势

3.数据都是半结构化或者非结构化的数据，需要我们存储以及处理成直观的数据

Hadoop1.0 hdfs+mapreduce

Hadoop2.0 hdfs+yarn+mapreduce

Yarn是资源协调管理框架引入yarn 既可以运行mapreduce 也可以运行spark，strom计算框架

HDFS

设计目的是为了解决海量数据的存储以及管理问题。采用横向扩展，构建在廉价机器上，因为廉价机器出现问题的概率较大，hdfs设计确保集群的稳定性以及高可用

将大数据的文件以横向扩展的思维，存放在集群中

集群中的数据管理者叫做 NameNode

Namenode 要管理datanode

1.要知道管理了哪些datanode

2.有rpc心跳机制，要时刻关注集群中各个datanode的存活状况

3.需要知道管理和存储了哪些大文件，以及这些大文件被切块之后在哪些机器上存储（namenode存储元数据）

4.对于文件块，有备份机制，主要为了容灾，一个文件块保存三块，同一个机架有两个备份，其他机架一个备份

NameNode

用来管理文件的元数据，元数据特别重要！

Hadoop还有两个文件 edits和fsimage

fsimage用来存储元数据

edits用来保存操作文件的记录

edits文件里的记录数达到一定的边界阈值之后，会和fsimage合并一次。

存储数据块的机器叫做DataNode

安装好Hadoop之后启动 dfs 就可以使用hdfs了

hdfs有一系列的指令可以增删查改文件目录和文件

举例：hadoop fsck /park/1.txt -blocks -locations -racks

Hdfs的http端口是50070

帅气的程序员

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。