本人比较笨,弄了好久才学到皮毛(以后在学到一点在补充)。
首先给大家两个网页理解什么是hadoop:
http://os.51cto.com/art/201305/396145.htm (建议先看,中间一段解释的很好)
http://www.cnblogs.com/laov/p/3434917.html (非常易理解的图解hadoop)
hadoop分为两部分hdfs(文件储存),MapReduce(文件处理)
所以我们分两部分 一.安装配置hadoop 二.使用ecplise 运行小例子 (下篇博客再写)
1.下载 解压hadoop地址 http://mirrors.cnnic.cn/(apache中国源码下载)
2.配置环境变量:/etc/profile 需要添加 :
export HADOOP_HOME=/home/user/hadoop-2.7.1
export PATH=$PATH:$HADOOP_HOME/bin
3.修改hadoop配置:cd hadoop-2.7.1/etc/hadoop
hadoop-env.sh 中
export JAVA_HOME=/home/user/javaIDE/jdk1.8.0_65 ###必须是绝对路径
##默认安装的Java的路径 /usr/lib/jvm/...
在 mapred-site.xml 添加(在这个版本中没有这个文件,将mapred-site.xml.template改为mapred-site.xml)(别添加错了,放在<configuration>里面,我当时就写错了。。。。这脑袋)
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
在core-site.xml添加(二个标签必填。第二<value>标签目录决定你要储存的文件放在哪里,同时该目录必须要先存在)
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/user/hadoop_tmp</value>
</property>
4.设置ssh免密码登录
##查看ssh是否安装
apt-get install ssh
ssh-keygen -t rsa ##一直按enter键
cat id_rsa.pub >> authorized_keys ##先进入.ssh目录
##验证 ssh localhost
5.先初始化namenode
命令 hadoop namenode -format
启动hadoop ./start-all.sh
6,用于检查:hdfs dfsadmin -report
7.jps 查看那些没有启动:一共这几项DataNode ,SecondaryNameNode ,NameNode ResourceManager, NodeManager,Jps
ps:所有对配置的更改都要重启hadoop才有用。
8.如果出现无法连接错误 请检查:9000 9001端口是否占用,core-site.xml文件中设置的目录是否存在(hadoop是不会创建它,需要自己手动创建)hadoop是否启动(hadoop命令可以用不表示hadoop是启动着的)
9.出现以下错误:
错误: 现象是无法连接错误 同时 执行./stop-all.sh 时 出现0.0.0.0: no secondarynamenode to stop
解决:常试初始化namenode ,命令: hadoop namenode -format (重启hadoop)
大家出现什么错误可以留言