1:在自己机器安装linux操作系统,linux的版本自己选择。安装方式可以选择双系统或者虚拟机安装。
第一步:在已经安装好的VirtualBox上新建虚拟机
第二步:填写虚拟机名称,系统类型,系统版本,这里选的版本是Debian32位,这个镜像文件是以前老师给的
第三步:一直默认点下一步,安装完成后打开虚拟机,选择对应的镜像文件
第四步:打开终端窗口,输入如下命令,创建一个新用户hadoop
第五步:使用如下命令设置Hadoop用户的密码,要输入两遍
第六步:为hadoop用户增加管理员权限,方便部署
第七步:用hadoop用户登陆后先更新一下apt
第八步:安装vim
第九步:集群、单节点模式都需要用到SSH登陆,这里安装SSH server
安装后,可以使用ssh localhost命令登陆本机
第十步:但这样登陆是需要每次输入密码的,我们需要配置成SSH无密码登陆比较方便。
首先退出刚才的 ssh,就回到了我们原先的终端窗口,然后利用 ssh-keygen 生成密钥,并将密钥加入到授权中:
第十一步:再用ssh localhost命令,无需输入密码就可以直接登陆了
安装jdk
第一步:
第二步:配置jdk环境变量,输入下面命令打开当前登录用户的环境变量配置文件.bashrc
第三步:添加如下单独一行(注意,等号“=”前后不能有空格),然后保存退出
第四步:接下来,要让环境变量立即生效,请执行如下代码:
执行上述命令后,可以检验一下是否设置正确:
安装hadoop2
第一步:将hadoop下载好放到下载文件夹里面,然后将其解压安装到/usr/local/中
第二步:修改文件夹名称,修改文件权限
第三步:Hadoop 解压后即可使用。输入如下命令来检查 Hadoop 是否可用,成功则会显示 Hadoop 版本信息
Hadoop为分布式配置
第一步:修改配置文件 core-site.xml
修改为下面配置
第二步:修改配置文件 hdfs-site.xml
修改为如下内容:
第三步:执行 NameNode 的格式化
成功的话,会看到 “successfully formatted” 和 “Exitting with status 0” 的提示
第四步:接着开启 NameNode 和 DataNode 守护进程
第五步:启动完成后,可以通过命令 jps 来判断是否成功启动,若成功启动则会列出如下进程
第六步:成功启动后,可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件
第七步:关闭hadoop
安装过程的一些奇奇怪怪的事:
第一次安装的时候,我安装了jdk1.8,Hadoop 2.9版本的,安装过程没发现出什么错,安装完之后第二天再次启动hadoop的时候,使用jps查看进程的时候就少了一个进程namenode后来根据文档改了之后又可以显示四个进程了,但是过两天再启动的时候又少了一个进程,这次怎么改都不能再显示四个进程了,无奈之下我把所有东西删了重新来。后来我安装低一点版本的hadoop,安装了2.7版本的,但是在我想要配置.xml文件的时候打不开这个文件,我以为是gedit还没安装,但是安装的时候已经说我的是最新版本的gedit了,还是打不开还是报错
后来我又换了低一点的版本,我安装了2.6版本的,安装跟配置过程中都没出错,在我启动hadoop的时候又说找不到JAVA_HOME了,但是我测试jdk是否安装成功的时候是正常显示的,
后来去修改一下面这个文件
将原来的内容
修改后
再次启动hadoop就能正常访问了,安装hadoop反反复复弄了三遍才安装好,很多时候不知道是版本问题的,只有不断的去尝试才知道我的电脑安装不了高版本。