一 nutch爬虫工具
二 分布模式安装步骤
原因:防火墙保护限制关闭该系统下进程端口局域网之外用户将不能访问或者访问访问权限权限.使集群可以在某一局域网内使用(如一个公司内部网络)
2 修改IP
3 修改hostname
4 设置ssh自动登录
5 安装jdk
6 安装hadoop
三 win下文件导入到linux中有两种方式
1 在Linux下共享文件夹
虚拟机-->设置--->选项-->共享文件夹--->总是开启--->浏览
2 直接拖拽
3通过第三方软件SSH等
四 hadoop配置文件作用
1 .core-site.xml
<!--指定namenode的地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/zkpk/hadoopdata</value>
</property>
</configuration>
2 hdfs-site.xml
<configuration>
<!--指定hdfs保存数据的副本数量-->
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
3 mapred-site.xml
<configuration>
<!--告诉hadoop以后MR运行在YARN上-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
4 yarn-site.xml
<configuration>
<!--nomenodeManager获取数据的方式是shuffle-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!--指定Yarn的老大(ResourceManager)的地址-->
<property>
<name>yarn.resourcemanager.address</name>
<value>master:18040</value>
</property>
<configuration>