环境配置
规划网络
关闭防火墙
修改IP
修改hostname 在一台机器上做完然后scp到其他机器上
设置ssh自动登录
安装JDK
1.先要进行ssh无密钥登陆,每台虚拟机上都要设置完成
2.配置各个服务器之间的主机IP映射
192.168.0.2 master
192.168.0.3 slave1
192.168.0.4 slave2
192.168.0.5 slave3
3. 配置文件的最大打开数
4.进行Hadoop的解压 $ tar -zxvf hadoop-1.0.4.tar.gz
进行问文件名的更改 $ mv hadoop-1.0.4 hadoop
5. 配置Hadoop的环境变量,切换到root权限 $ su - root 配置环境变量 # vi /etc/profile
(环境变量千万不要配错)export HADOOP_HOME=/home/fq/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
6.修改Hadoop配置文件命令行使用hadoop @ $ cd ~/hadoop/conf
@ 在文件中找到JAVA_HOME (hadoop/conf/hadoop-env.sh)更改到当前的java路径export JAVA_HOME=/usr/java/jdk1.6.0_45
7. 进入该目录下的core-site.xml进行修改 所有的均可在其中配置
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value> HDFS:namenode根目录地址与端口号
</property>
****** master是地址映射 每个机器的分组更改 slave1也根据更改
8.修改hdfs-site.xml文件 分布式文件系统
<property> 软件的备份机制 将文件剁碎的小碎块备份,任何一个写命令写三份,这样secondnamenode就可以启动,这样每一次hadoop都会备份三分死亡一个就会多读写一个
<name>dfs.replication</name> ??dfs.replication为复制份数
<value>3</value>
</property>
<property>
<name>dfs.name.dir</name> 为master元素储存的数据位置 根据后面修改的masters表
<value>/home/fq/hadoop/namenode/</value> 源数据存在哪默认是不能有的!!!!
</property>
<property>
<name>dfs.data.dir</name> 为data的存储位置
<value>/home/fq/hadoop/data/</value>
</property>
<property>
<name>hadoop.tmp.dir</name> 临时进程文件的存储位置
<value>/home/fq/hadoop/tmp/</value>
</property>
<property>
<name>dfs.permissions</name> 不考虑权限
<value>false</value>
</property>
9. 配置 mapred-site.xml hadoop是看一台机器上能运行几个map和reduce的
<property>
<name>mapred.job.tracker</name> jobtracker的主机名与端口号,散任务的端口号
<value>master:9001</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name> 最大的map任务数一台机器上能跑几个map
<value>2</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name> 最大reduce的任务个数
<value>2</value>
</property>
10.通过vi工具修改masters文件改为现有的masters的名字
11.通过vi工具修改slaves 更改slaves名字
12.在Hadoop下面创建tmp data文件夹 并且修改权限为755
13.对其他服务器进行复制 scp -r ~/hadoopfq@slave2:~
14. 启动Hadoop hadoop namenode -format(只在namenode上执行!!!)
start-all.sh
hadoop dfsadmin -report进行测试
用网页来监控Map与Reduce判断是否装上
关闭Hadoop stop-all.sh
调试shell脚本 sh -x stop-all.sh
注意出现 Warning: $HADOOP_HOME is deprecated.
原因:是因为Hadoop本身对HADOOP_HOME做了判断,具体在bin/hadoop和bin/hadoop-config.sh里
解决:在当前用户home/.bash_profile里增加一个环境变量:export HADOOP_HOME_WARN_SUPPRESS=1
工作中如何进行大规模的系统配置文件的配置
磁盘必须保障80G否则起不来
datanode启动不了
若是格式化hadoop太多的次数并且在slave中的data日志文件出现IOEXCEPTION就是将dataID与namenodeID改成一致的,在namenode下的current下的VERSION中
规划网络
关闭防火墙
修改IP
修改hostname 在一台机器上做完然后scp到其他机器上
设置ssh自动登录
安装JDK
1.先要进行ssh无密钥登陆,每台虚拟机上都要设置完成
2.配置各个服务器之间的主机IP映射
192.168.0.2 master
192.168.0.3 slave1
192.168.0.4 slave2
192.168.0.5 slave3
3. 配置文件的最大打开数
4.进行Hadoop的解压 $ tar -zxvf hadoop-1.0.4.tar.gz
进行问文件名的更改 $ mv hadoop-1.0.4 hadoop
5. 配置Hadoop的环境变量,切换到root权限 $ su - root 配置环境变量 # vi /etc/profile
(环境变量千万不要配错)export HADOOP_HOME=/home/fq/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
6.修改Hadoop配置文件命令行使用hadoop @ $ cd ~/hadoop/conf
@ 在文件中找到JAVA_HOME (hadoop/conf/hadoop-env.sh)更改到当前的java路径export JAVA_HOME=/usr/java/jdk1.6.0_45
7. 进入该目录下的core-site.xml进行修改 所有的均可在其中配置
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value> HDFS:namenode根目录地址与端口号
</property>
****** master是地址映射 每个机器的分组更改 slave1也根据更改
8.修改hdfs-site.xml文件 分布式文件系统
<property> 软件的备份机制 将文件剁碎的小碎块备份,任何一个写命令写三份,这样secondnamenode就可以启动,这样每一次hadoop都会备份三分死亡一个就会多读写一个
<name>dfs.replication</name> ??dfs.replication为复制份数
<value>3</value>
</property>
<property>
<name>dfs.name.dir</name> 为master元素储存的数据位置 根据后面修改的masters表
<value>/home/fq/hadoop/namenode/</value> 源数据存在哪默认是不能有的!!!!
</property>
<property>
<name>dfs.data.dir</name> 为data的存储位置
<value>/home/fq/hadoop/data/</value>
</property>
<property>
<name>hadoop.tmp.dir</name> 临时进程文件的存储位置
<value>/home/fq/hadoop/tmp/</value>
</property>
<property>
<name>dfs.permissions</name> 不考虑权限
<value>false</value>
</property>
9. 配置 mapred-site.xml hadoop是看一台机器上能运行几个map和reduce的
<property>
<name>mapred.job.tracker</name> jobtracker的主机名与端口号,散任务的端口号
<value>master:9001</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name> 最大的map任务数一台机器上能跑几个map
<value>2</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name> 最大reduce的任务个数
<value>2</value>
</property>
10.通过vi工具修改masters文件改为现有的masters的名字
11.通过vi工具修改slaves 更改slaves名字
12.在Hadoop下面创建tmp data文件夹 并且修改权限为755
13.对其他服务器进行复制 scp -r ~/hadoopfq@slave2:~
14. 启动Hadoop hadoop namenode -format(只在namenode上执行!!!)
start-all.sh
hadoop dfsadmin -report进行测试
用网页来监控Map与Reduce判断是否装上
关闭Hadoop stop-all.sh
调试shell脚本 sh -x stop-all.sh
注意出现 Warning: $HADOOP_HOME is deprecated.
原因:是因为Hadoop本身对HADOOP_HOME做了判断,具体在bin/hadoop和bin/hadoop-config.sh里
解决:在当前用户home/.bash_profile里增加一个环境变量:export HADOOP_HOME_WARN_SUPPRESS=1
工作中如何进行大规模的系统配置文件的配置
磁盘必须保障80G否则起不来
datanode启动不了
若是格式化hadoop太多的次数并且在slave中的data日志文件出现IOEXCEPTION就是将dataID与namenodeID改成一致的,在namenode下的current下的VERSION中