一、下载安装
- 去官网下载Hadoop 最新版本,我下载的是Hadoop-2.8.0,然后便是解压和配置环境变量。
- 环境变量我是配置在~/.bashrc下,配置如下:
然后需要使用source ~/.bashrc,使配置文件生效,然后可以在终端中敲入Hadoop ,Hadoop version指令看是否配置成功。
二、配置安装SSH
-
首先查看是否已安装ssh和sshd,使用which ssh,和which sshd指令:
如果没有安装,调用sudo apt-get install ssh来安装。 -
然后利用下面的指令来创建一对OpenSSL密钥对,ssh-keygen
-
使用指令将新生成的公钥复制到已授权密钥列表 cat ~/.ssh/id_rsa.pub >> ~/.ssh.authorized_keys
-
使用ssh localhost看是否登录成功,如果还是需要密码,那好,恭喜你,你也中奖了!
-
一般是文件权限的问题,~/.ssh/authorized_keys这个文件的权限问题,不能让所有者之外的用户对该文件有写权限,否则,sshd将不允许使用该文件,因为它可能会被其他用户篡改,因此需要将该文件的权限设置为644。来自http://www.linuxdiyf.com/linux/22384.html。然后顺便看了下Linux下文件权限的设置,
如上图所示,第一列“-rw-r--r--”表示的是文件的类型和文件权限,字符串中的第1个字符代表文件的类型,第2-4个字符代表文件所有者的权限,第5-7个字符代表文件所属组的权限,第8-10个字符代表其他用户对文件的权限;第二列是纯数字,代表文件链接个数;第三列“hduser”代表文件的所有者;第四列“hadoop”代表文件所在的群组;第五列代表文件的大小;然后便是文件的修改时间和名称。
修改文件权限使用:chmod 文件权限 文件名称;修改文件所有者使用:chown 用户名 文件。内容来自 http://blog.csdn.net/jenminzhang/article/details/9816853 -
但是,修改文件的权限并没有解决我的问题,然后我去查询/var/log/auth.log日志文件,发现是因为当前的用户组被我禁用了ssh登录,然后在sshd的配置文件中添加了用户组访问权限,然后重启ssh服务,访问正常!
三、Hadoop的配置工作-伪分布式
- /etc/hadoop/core-site.xml
配置如下:
同时该配置文件还修改了默认的文件目录,,该文件目录作为根目录,所有的文件和数据都写入该目录
改配置工作是保存了nameNode的位置,HDFS和MapReduce组件都需要它,因而该配置工作出现在core-site.xml中 - /etc/hadoop/hdfs-site.xml
dfs.replication指定了每个HDFS数据块的复制次数 - 格式化文件系统,启动namenode守护进程和datanode守护进程
hdfs namenode -format
./start-dfs.sh
然后可以在浏览器中输入http://localhost:50070/