一、新建虚拟机
1、解压CentOS压缩文件
2、从VMware打开CenOS文件夹中的虚拟机
3、修改机器的内存等
内存改成2g,网络适配器改成VMnet8
4、修改虚拟机的网关
设置完成后,使用windows中的cmd ping 192.168.116.100看是否能够ping通
5、关闭图形界面
init 3
然后再次 ping 192.168.116.100
备注:如果不能ping通,看是否是vmnet8的网络设置问题
不能设置为自动获取ip地址。
这个命令只能关闭当前的图形页面,下次再次打开这个虚拟机的时候图形界面还是会再次打开
6、让普通用户具备sudoer权限
切换到root
然后 vi /etc/sudoers加入一行
hadoop ALL=(ALL) ALL
7、然后真正关闭linux的图形界面
sudo vi /etc/inittab
上图标注中初始数字为5,要改成3。
8、修改主机名
sudo vi /etc/sysconfig/network
9、将jdk上传到linux服务器
二、安装jdk&Hadoop
1、在linux中创建一个叫app的文件夹
mkdir app
且删除除了app,jdk以外的所有文件夹
rm -rf P* D* Music/ Video/
2、将jdk解压缩到app文件夹中
tar -zxvf jdk-7u65-linux-i586.tar.gz -C app/
3、将java变量添加到环境变量中去
sudo vi /etc/profile
在文件最后添加
export JAVA_HOME=/home/hadoop/app/jdk1.7.0_65
export PATH=$PATH:JAVA_HOME
source /etc/profile(让刚刚的命令及时生效)
可以在任意地方输入 java -version 可看到java 的版本号出现(未出现则设置错误)
备注:现在java就已经装好了,接下来装hadoop
4、将hadoop传入linux系统中且解压
tar -zxvf hadoop...... -C app
5、修改hadoop的配置(在etc文件夹下)
cd etc
cd hadoop
(1)oop的环境配置文件(hadoop-env.sh这个脚本自身写的有问题,所以需要修改)
vi hadoop-env.sh
原来图中圈出来的是{JAVA_HOME},但是脚本并不能够识别,所以要赋值它java_home的绝对目录
(2)修改core-site.xml
vi core-site.xml
(3)修改hdfs-site.xml文件
vi hdfs-site.xml
(4)修改mapred-site.xml.template
首先要改掉该文件名称
mv mapred-site.xml.template mapred-site.xml
其次就是修改其中的文件内容
vi mapred-site.xml
(5)修改yarn-site.xml
vi yarn-site.xml
6、关闭防火墙
sudo service iptables stop
sudo chkconfig iptables off
(上面两个命令都需要执行)
7、将hadoop变量放入etc/profile文件夹下面
8、进行格式化
hadoop namenode -format
9、在etc/profile文件夹中加入sbin相关内容
10、启动hdfs跟yarn
start-hdfs.sh
start-yarn.sh
11、hdf&mapreduce测试
修改windows系统中的hosts文件,之后在火狐浏览器中输入网址:http://weekend110:50070跳转到一个页面。
HDFS的实现思想:
1、hdfs是通过分布式集群来存储文件的,为客户端提供了便捷的访问方式,就是一个虚拟的目录结构。
2、文件存储到hdfs集群中去的时候是被切分成block的
3、文件的block存放在若干台datanode节点上
4、hdfs文件系统中的文件与真实的block之间有映射关系,由namenode管理
5、每一个block在集群中会存储多个副本,好处是可以提高数据的可靠性,还可以提高访问的吞吐量。