使用xshell导入jdk,用rpm装jdk
配置jdk环境变量
免秘钥配置
创建software
导入hadoop
重新配置环境变量,加入hadoop
修改hadoop配置文件信息给三个文件里的JAVA_HOME都改成绝对路径/usr/java/jdk1.7.0_67
修改hadoop配置文件信息
修改hadoop配置文件信息
格式化
启动集群
在浏览器里打开node1:50070
在hdfs中创建俩个目录
传输文件到linux
把文件传入到input文件中
进入MapReduce目录
运行wordcount
查看运行结果
查询log
停止集群
搭建高可用
‘
安装jdk
发送环境变量配置
保持发送的profile 并jps看jdk是否安装好
同步时间 四台机子输入下面命令
查看四台机子hostname是否正确
查看ip映射是否正确
检查selinux
检查防火墙是否关闭
给其他三台进行免密配置
把公钥发送给其他三台机子(机子都到.ssh文件夹下面)
在node1上ssh localhost 其他主机,看看是否可以免密钥,不行执行如下操作
去掉node1 snn并且重新配置
加入
dfs.replication
3
加入
Vi saves
其他三台机子安装hadoop
给node2安装zookeeper
修改zoo.cfg
把zookeeper发送到node3node4
在node2,3,4中创建zk文件
给每台机子创建配置文件里的路径
把该文件分发到node3,4
启动zookeeper
在1、2、3三台机子上分别把journalnode启动起来
如果无法成功,去hdfs-site.xml来查看配置是否正确
挑一台namenode上执行hdfs namenode –format另一台namenode不用执行,否则clusterID变了,找不到集群了。
然后,启动刚刚格式化的那台namenode
把数据同步到node2
格式化zkfc格式化zkfc
在node1上启动hdfs集群
然后全部会话jps看一下都起来些什么进程
配置yarn.size,xml 加入以下东西
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.resourcemanager.ha.enabled
true
yarn.resourcemanager.cluster-id
cluster1
yarn.resourcemanager.ha.rm-ids
rm1,rm2
yarn.resourcemanager.hostname.rm1
node05
yarn.resourcemanager.hostname.rm2
node06
yarn.resourcemanager.zk-address
node04:2181,node05:2181,node06:2181
发送刚刚配置的俩个文件