总结
2018年一年的摸索学习,对大数据有了一些初步的了解。想在这个时间段,对学习的内容做一些总结。一方面方便未来查看阅读,另一方面,如果有不足的或者错误的,通过各位的评论,也能尽快纠正自己。
Hadoop搭建
Hadoop两个最核心的框架是:HDFS、YARN。所以,对于Hadoop集群来说,主要的配置,也就是配置HDFS和YARN。HDFS是一个分布式文件系统。YARN是一个资源调度系统。
core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
core里主要配置了默认文件系统为hdfs,地址是:master:9000
HDFS主要配置
HDFS的配置在hdfs-site.xml里面配置。hadoop已经有一个默认的配置信息了。但是在hdfs-site.xml里可以重新指定配置内容。这儿主要来配置,副本数量、数据块大小、数据块文件存放目录位置(物理)等等。
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
YARN主要配置
YARN里面也有一堆配置,Hadoop已经默认有一份了,可以在这儿重新指定新的配置项。例如:resourcemanager的节点位置、reduce获取数据的方式等。
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
上面是Hadoop的一些重要配置项,可以根据具体需求来配置更优的配置。因为我也是初学者,对一些其他的配置了解甚少,不列出来了。