Hadoop的HDFS

大数据的特点

1.TB,PB类别的数据

2.数据是以高速增长的趋势

3.数据都是半结构化或者非结构化的数据,需要我们存储以及处理成直观的数据

 

 

 

 

Hadoop1.0  hdfs+mapreduce

Hadoop2.0  hdfs+yarn+mapreduce

Yarn是资源协调管理框架   引入yarn 既可以运行mapreduce 也可以运行sparkstrom计算框架

 

 HDFS

设计目的是为了解决海量数据的存储以及管理问题。采用横向扩展,构建在廉价机器上,因为廉价机器出现问题的概率较大,hdfs设计确保集群的稳定性以及高可用

 

将大数据的文件以横向扩展的思维,存放在集群中

 

集群中的数据管理者叫做 NameNode

Namenode  要管理datanode   

1.要知道管理了哪些datanode

2.rpc心跳机制,要时刻关注集群中各个datanode的存活状况

3.需要知道管理和存储了哪些大文件 ,以及这些大文件被切块之后在哪些机器上存储(namenode存储元数据)

4.对于文件块,有备份机制,主要为了容灾,一个文件块保存三块,同一个机架有两个备份,其他机架一个备份

 

NameNode

用来管理文件的元数据,元数据特别重要!

Hadoop还有两个文件 editsfsimage

fsimage用来存储元数据

edits用来保存操作文件的记录 

edits文件里的记录数达到一定的边界阈值之后,会和fsimage合并一次。

 

存储数据块的机器叫做DataNode

 

 

 

 

 

安装好Hadoop之后 启动 dfs 就可以使用hdfs 

hdfs有一系列的指令 可以增删查改文件目录和文件

举例:hadoop fsck /park/1.txt  -blocks -locations -racks

 

 

Hdfshttp端口是50070 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值