1.Hadoop分布式集群与伪分布式集群的区别
分布式集群需要多台电脑,,一台为奴隶主机,其他的为奴隶机用来存储数据。
伪分布式集群可以使用一台电脑搭建,也可以使用多台电脑,只需要在slaves中添加自己的主机名就可以了,其他的与分布式一样。
2.Hadoop分为三个核心部分,每个部分是什么,有什么功能?
三个核心:hdfs,mapreduce和yarn
Hadfs:分布式文件系统,mapreduce:分布式计算框架,yarn:资源调度器
功能:hdfs:由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。用于存储文件,通过目录树来定位文件
Mapreduce:采用“分而治之”的思想,来处理大规模的数据。将数据拆解成多个部分,并利用集群的多个节点同时进行数据处理,然后将各个节点得到的中间结果进行汇总,经过进一步的计算(该计算也是并行进行的),得到最终结果
3.Hadoop分布式集群,默认备份数为多少,每个数据块大小是多少?在哪个配置文件中可以修改备份数与每个数据块大小?
默认备份为3份,每块数据大小128M, 在hdfs-site.xml配置文件中可以修改备份数和数据块大小。
<property>
<name>dfs.block.size</name>
<value>128</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
4.Hadoop分布式集群中NN和DN、SN,指得是什么?他们分别有什么作用?
NN:Name Node 管理HDFS的命名空间,配置副本策略,管理数据块(Block)映射信息,处理客户端读写请求
DN:DataNode 存储实际的数据块,执行数据块的读/写操作
SN:SecondaryNameNode 辅助NameNode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode ,在紧急情况下,可辅助恢复NameNode
5.Hadoop分布式集群中,如