作者:wanyao
出处: http://blog.csdn.net/wanyao1992
引言
最近要做毕业设计,打算需要处理一个大数据,对于Hadoop在大数据上的强大功能也早有耳闻,所以决定先搭建一个Hadoop环境试一试。加之以后研究生方向也是数据挖掘,推荐系统这个方向的,所以掌握Hadoop可算是一个基本功。于是,经过三天左右的时间,将Hadoop终于运行起来了。至于Hadoop的原理,使用方面还不是太了解,打算在接下来的几天内去跑几个案例研究研究。这篇文章主要是记录下我这几天来搭建Hadoop的过程,希望能给需要帮助到人提供一个参考。对于实践类的东西,关键还是要不断尝试,遇到问题不断解决,不断Google喽~
0.环境参数
主机系统:Ubuntu12.04 LTS 64bits下
虚拟机:VirtualBox(网上大多的都是基于VMWare上的,但是本人觉得VMWare太大了,而且本人比较喜欢开源的东西)
虚拟机系统:Ubuntu12.04 Server 64bits(注意是Server版本的,尽量不要选Desktop版本的,除非你的机器配置特别高,不然跑起来会很卡)
JDK:JDK1.7.0_51
Hadoop:Hadoop1.2.1(最新的版本应该是2.X,这个版本没试过,和1.X的配置有点区别)
主要的就这几个吧,没有的赶紧下载吧,次要的需要的时候再下也来得及。
1.安装VirtualBox +Ubuntu Server虚拟机
去VirtualBox的官网上下载最新的VirtualBox,我的版本是virtualbox-4.3_4.3.8-92456~Ubuntu~precise_amd64.deb,安装就是了。(也可以直接去Ubuntu Software Center安装)。
安装好后,点击New开始创建虚拟机,这个可以Google Virtualbox Ubuntu了,本文就不再赘述了,一般默认就行。但提醒注意的时候,如果是UbuntuServer,内存512左右就够了,硬盘大小我设到是16GB。安装好系统后,一定要将网络设置为桥接方式。Ubuntu默认的是NAT联网方式。本人在上面可是吃了很大的亏。
顺便附录下虚拟机的集中联网方式:(参考:http://bbs.kafan.cn/thread-1205804-1-1.html,http://xuezaijiongtu.blog.163.com/blog/static/197576271201110162014311/,http://www.cnblogs.com/ggjucheng/archive/2012/08/19/2646007.html)
---------------------------------------------附录,可跳过--------------------------------------------------------
在说到VMware的网络模型之前,先说一下VMware的几个虚拟设备:
- VMnet0:这是VMware用于虚拟桥接网络下的虚拟交换机;
- VMnet1:这是VMware用于虚拟Host-Only网络下的虚拟交换机;
- VMnet8:这是VMware用于虚拟NAT网络下的虚拟交换机;
- VMware Network Adapter VMnet1:这是Host用于与Host-Only虚拟网络进行通信的虚拟网卡;
- VMware Network Adapter VMnet8:这是Host用于与NAT虚拟网络进行通信的虚拟网卡;
Bridge(桥接方式)
在这种模式下,VMWare虚拟出来的操作系统就像是局域网中的一台独立的主机,