每次换电脑的时候都要把hadoop的环境重新的搭建一遍,每次配置的时间不是很长,但是准备的时间浪费很多,都是一些常用的工具软件还有对应的插件,镜像什么的。所以这次在博客上总结一下。算是一种复习,也算是为刚接触hadoop的同学一个方便的思路。下面我将分为几部分来描述搭建hadoop2.x的所有的流程。这部分是环境的准备工作。(面向的是windows的用户,采用虚拟机的方式来搭建hadoop的环境,并远程的配置。)
- 系统环境的确认,因为当前的电脑大多是64位操作系统的,而且我们用的vmware也是只支持64位系统的(当然vmware有破解的32位的系统,但是建议还是用64位的系统要好一些,因为后面虚拟机会开好多台,32位系统做多的4G内存有点吃不消。)。
- 下载vmware虚拟机软件,网上有现成的软件,可以下载一个破解版的,我用的是VMware Workstation 12.5,找找破解密匙,配合着虚拟机下载一个版本的linux的镜像,我用的是CentOS-7-x86_64-DVD-1611.iso这个镜像。大家可以网上下载。安装镜像,这种文章网上很多,正常的安装就可以了,建议下载镜像的时候下载一个带桌面的镜像,这样可以方便之后的配置ip地址(当然用linux用的熟的可以直接安装免桌面的,毕竟桌面的会占用很大一部分资源)
- 安装完虚拟机后就是ip地址的配置了,有三种方式,hostonly,桥接,还有net模式。
(桥接模式是你有一个除了本机用的ip之外的一个真实可用的ip,这样就相当于两台电脑,连个ip),但是一般我们没有那么多闲置的ip,这时候可以采用hostonly模式,就是把主机和需要的多台的虚拟机配置到一个子网下,这样虽然不能真正的访问internet,但是windows主机和多台虚拟机之间是可以相互通信的。我用的就是这种方式。需要这样设置(点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.255.0 -> apply -> ok,回到windows –> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMnet1 -> 属性 -> 双击IPv4 -> 设置windows的IP:192.168.8.100 子网掩码:255.255.255.0 -> 点击确定)这样windows主机和linux的主机都在子网段8网段之下,下次设置虚拟机的ip地址的时候就可以是192.168.8.78。设置之后进入cmd,ping一下虚拟机设置的ip地址。例如ping 192.168.8.78.然后在用虚拟机pingwindows主机,这时候ping windows主机的ip不是那个真是的ip,而是在子网下的ip,就是192.168.8.100.如果互相的ping通了就证明可以远程调控了。如果ping不同,可能是没有设置对,一定要设置在同一个网段下。 - 远程的连接工具SecureCRT(用来远程连接linux的远程客户端),因为我们需要模拟远程的控制多台linux服务器,所以需要一个远程链接工具,也可以用xshell.我上传了一个破解版的SecureCRT 这里写链接内容
- 配置hadoop的环境多半是配置xml文件,当然可以直接在linux下手动的vim来编辑xml文件中的标签,但是这样非常容易出错,所以大多是把配置的选项记录在本地的记事本中,然后用一个远程的软件进行配置,只需要复制,粘贴,就可以。Notepad++这里写链接内容 压缩包中的NppFTP_0.26.3/bin/NppFTP.dll使用来远程连接linux的插件,需要拷贝到Notepad++安装目录的plugins目录下。
- 远程传输资源的软件winscp(用来把下载的hadoop2.x的压缩包,和jdk等一些大文件由windows传输到linux上)这里写链接内容
- 下载linux版本的jdk(我下载的是jdk-7u79-linux-x64.tar.gz)也可以是更高的版本,这个资源过大,所以可以在oracle官网上下载这里写链接内容
- 下载hadoop安装包这里写链接内容选择对应版本的hadoop下载我用的是 hadoop-2.7.3.tar.gz,其中的那个hadoop-2.7.3.src.tar.gz是hadoop的源码包,利用这个src源码包可以下载所有的hadoop源码,在IDE编写的时候可以关联源码来更加深入的了解hadoop,因为下载源码需要安装mvn和protoc。在网上可以找到相应的文章怎么利用hadoop的src源码包下载hadoop源码 这里我已经下载了所有的源码,并且打包成了zip模式的压缩包,需要关联源码的可以直接下载hadoop源码zip
上边的这些步骤不是每一步都必须做的,有的是方便之后配置的工具,读者根据自身的情况来选择。不必完全的相同。