nutch1.2+hadoop0.20搭建分布式环境

在前边介绍了nutch1.2的单机布署环境之后,此篇介绍一下nutch1.2+hadoop0.20的集群环境的搭建。

本来hadoop是属于nutch1.2下边的一个附属部分,后来好像是在nutch0.9剥离出去,成了独立的一支,但是它们天然的结合性是相当默契的。nutch1.2是包含hadoop0.20的,如果不是特殊要求的话,用自带的就可以了,而且这个版本的hadoop还是相当新的,本篇即是如此。

在前篇的基础上修改如下几个文件,core-site.xml,hdfs-site.xml,mapred-site.xml,nutch-site.xml,以前这些文件的配置参数是比较集中的,但是随着版本的升高,配置参数逐渐分散,并针对化,故有现在的四个文件,

core-site.xml:<property>

                                    <name>fs.default.name</name>

                                    <value>hdfs://master:9000</value>此处指的是抓取数据和搜索时候用的文件所在的主机

                      </property>

hdfs-site.xml://配置的是hdfs的系统参数,其中的hadoop20文件夹为手动在/usr下建立的

                  <property>

                   <name>dfs.data.dir</name>

                   <value>/usr/hadoop20/data</value>

         </property>

         <property>

                   <name>dfs.name.dir</name>

                   <value>/usr/hadoop20/name</value>

         </property>

         <property>

                   <name>dfs.replication</name>

                   <value>2</value>//数据存放的备份数目

         </property>

mapred-site.xml://配置hadoop的map、reduce参数

     <property>

                   <name>mapred.job.tracker</name>

                   <value>namenode的主机名称:9001</value>

         </property>

         <property>

                   <name>mapred.local.dir</name>

                   <value>/usr/hadoop20/temp</value>

         </property>

         <property>

                   <name>mapred.map.tasks</name>

                   <value>20</value>

         </property>

         <property>

                   <name>mapred.reduce.tasks</name>

                   <value>2</value>

         </property>

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值