我的hadoop大数据之路（二）

最新推荐文章于 2024-07-09 16:51:04 发布

qq_23660243

最新推荐文章于 2024-07-09 16:51:04 发布

阅读量618

点赞数

分类专栏：大数据文章标签： hadoop java

本文链接：https://blog.csdn.net/qq_23660243/article/details/50596802

版权

大数据专栏收录该内容

24 篇文章 1 订阅

订阅专栏

hadoop的安装包中的conf目录,那里有很多配置，但只需对其中的三个文件进行修改：core-site.xml,hdfs-site.xml 和mapred-site.xml。

1、首先我们修改core-site.xml文件：

<configuration>
  <property>
  <name>fs.default.name</name>
  <value>hdfs://localhost:9000</value>
  </property>
</configuration>

这个是hadoop的核心配置，至少需要配置HDFS的地址及端口号，以上是最简单的配置方法。这里详细说明一下：fs.default.name 用于指定NameNode的IP地址和端口号，localhost就是HDFS NameNode的地址，9000是HDFS的NameNode RPC交互端口。

2、配置hdfs-site.xml

这里主要配置HDFS的相关属性参数，简单配置如下：

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/home/moon/hdfs-filesystem/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/moon/hdfs-filesystem/data</value>
</property>
</configuration>

这里的moon是我的用户，建议把文件都放里面，我之前就是放在别的文件，还没有权限，一直permission denied。dfs.replication 用于指定HDFS中每个Block块被复制的次数，起到数据冗余备份的作用。一般经常设置为3，这里是伪分布式，只有一个节点，一次设置为1。dfs.name.dir用于配置HDFS的NameNode的元数据，以逗号隔开，HDFS会把元数据冗余复制到这些目录下。dfs.data.dir用于配置HDFS的DataNode的数据目录，会把数据存在这些目录下。

3、配置map-site.xml

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>

mapred.job.tracker是MapReduce Jobtracker 的ip地址以及端口号，localhost就是MapReduce Jobtracker的地址，9001是MapReduce Jobtracker RPC交互端口。

然后就是配置，然后直接使用hadoop namenode -format用于格式化文件系统。然后start-all.sh启动。ok第二部分完毕。

qq_23660243

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录