大数据的特点
1.TB,PB类别的数据
2.数据是以高速增长的趋势
3.数据都是半结构化或者非结构化的数据,需要我们存储以及处理成直观的数据
Hadoop1.0 hdfs+mapreduce
Hadoop2.0 hdfs+yarn+mapreduce
Yarn是资源协调管理框架 引入yarn 既可以运行mapreduce 也可以运行spark,strom计算框架
HDFS
设计目的是为了解决海量数据的存储以及管理问题。采用横向扩展,构建在廉价机器上,因为廉价机器出现问题的概率较大,hdfs设计确保集群的稳定性以及高可用
将大数据的文件以横向扩展的思维,存放在集群中
集群中的数据管理者叫做 NameNode
Namenode 要管理datanode
1.要知道管理了哪些datanode
2.有rpc心跳机制,要时刻关注集群中各个datanode的存活状况
3.需要知道管理和存储了哪些大文件 ,以及这些大文件被切块之后在哪些机器上存储(namenode存储元数据)
4.对于文件块,有备份机制,主要为了容灾,一个文件块保存三块,同一个机架有两个备份,其他机架一个备份
NameNode
用来管理文件的元数据,元数据特别重要!
Hadoop还有两个文件 edits和fsimage
fsimage用来存储元数据
edits用来保存操作文件的记录
edits文件里的记录数达到一定的边界阈值之后,会和fsimage合并一次。
存储数据块的机器叫做DataNode
安装好Hadoop之后 启动 dfs 就可以使用hdfs了
hdfs有一系列的指令 可以增删查改文件目录和文件
举例:hadoop fsck /park/1.txt -blocks -locations -racks
Hdfs的http端口是50070