hadoop 集群安装

最新推荐文章于 2023-07-07 21:54:57 发布

a-Loser

最新推荐文章于 2023-07-07 21:54:57 发布

阅读量467

点赞数

本文链接：https://blog.csdn.net/lucifer2603/article/details/37357085

版权

资料来自官网 http://hadoop.apache.org/docs/r1.0.4/cn/cluster_setup.html

Install

通常，集群里的一台机器被指定为 NameNode，另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves。

Configuration File

对Hadoop的配置通过conf/目录下的两个重要配置文件完成：

此外，通过设置conf/hadoop-env.sh中的变量为集群特有的值，你可以对bin/目录下的Hadoop脚本进行控制。

Configure in the cluster

要配置Hadoop集群，你需要设置Hadoop守护进程的运行环境和Hadoop守护进程的运行参数。

Hadoop守护进程指NameNode/DataNode 和JobTracker/TaskTracker。

管理员可在conf/hadoop-env.sh脚本内对Hadoop守护进程的运行环境做特别指定。

管理员可在conf/hadoop-env.sh脚本内对Hadoop守护进程的运行环境做特别指定。

参数	取值	备注
fs.default.name	NameNode的URI。	hdfs://主机名/
mapred.job.tracker	JobTracker的主机（或者IP）和端口。	主机:端口。
dfs.name.dir	NameNode持久存储名字空间及事务日志的本地文件系统路径。	当这个值是一个逗号分割的目录列表时，nametable数据将会被复制到所有目录中做冗余备份。
dfs.data.dir	DataNode存放块数据的本地文件系统路径，逗号分割的列表。	当这个值是逗号分割的目录列表时，数据将被存储在所有目录下，通常分布在不同设备上。
mapred.system.dir	Map/Reduce框架存储系统文件的HDFS路径。比如/hadoop/mapred/system/。	这个路径是默认文件系统（HDFS）下的路径，须从服务器和客户端上均可访问。
mapred.local.dir	本地文件系统下逗号分割的路径列表，Map/Reduce临时数据存放的地方。	多路径有助于利用磁盘i/o。
mapred.tasktracker.{map\|reduce}.tasks.maximum	某一TaskTracker上可运行的最大Map/Reduce任务数，这些任务将同时各自运行。	默认为2（2个map和2个reduce），可依据硬件情况更改。
dfs.hosts/dfs.hosts.exclude	许可/拒绝DataNode列表。	如有必要，用这个文件控制许可的datanode列表。
mapred.hosts/mapred.hosts.exclude	许可/拒绝TaskTracker列表。	如有必要，用这个文件控制许可的TaskTracker列表。