▶
\blacktriangleright
▶ Hadoop
本地安装模式
-
wordcount 统计个数
命令:hadoop jar /home/hduser/software/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /home/hduser/software/hadoop-2.7.2/input/wc.input /home/hduser/software/hadoop-2.7.2/output 中间不能换行 hadoop jar : 文件 /home/hduser/software/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar :使用到的jar包 wordcount : 执行的操作 /home/hduser/software/hadoop-2.7.2/input/wc.input :执行的文件 /home/hduser/software/hadoop-2.7.2/output :执行之后将结果存到这里
▶ \blacktriangleright ▶ 伪分布式模式hdfs
-
配置
- 环境变量 hadoop-env.sh - 目录文件 core-site.xml - 副本数:hdfs-xml
1.vim hadoop-env.sh
2.vim core-site.xml
3.vim hdfs-xml
-
启动集群
格式化(第一次启动格式化):hdfs namenode -format 启动NameNode:hadoop-daemon.sh start namenode 启动DataNode:hadoop-daemon.sh start datanode 之后输入命令jps查看启动的进程,如果没有就说明前面的有问题,也可以查看日志,每次重新弄之前都要删掉data和logs目录 命令是:rm -rf 目录名
1.jps
-
查看集群
在主机浏览器端 主机名或者ip+端口号,端口号是50070
-
建立目录
hdfs dfs -mkdir /hduser 和linux命令相似,执行时前面加hdfs dfs + 命令 只能是绝对路径,不能是相对路径
-
建立级联目录
hdfs dfs -mkdir -p /hduser/input
-
查看目录下有哪些文件
hadoop fs -ls /hduser/input或 hdfs dfs -ls /hduser/input
-
删除
hdfs dfs -rm -r /hduser
-
上传文件
hdfs dfs -put wc.input /hduser/input
-
查看文件内容
hdfs dfs -cat /hduser/input/wc.input
-
执行命令–统计个数
hadoop jar /home/hduser/software/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /hduser/input /hduser/output 读取的文件和执行结果的目录改了一下地方,其他不变
▶ \blacktriangleright ▶ yarn配置
-
配置yarn:资源的管理和任务的调度
- vim yarn-env.sh 配置环境变量(在末尾处添加)export JAVA_HOME= /home/hduser/software/jdk1.8.0_144 - vim yarn-site.xml - vim mapred-env.sh 配置环境变量 - cp mapred-site.xml.template mapred-site.xml - vim mapred-site.xml
- vim yarn-site.xml 要加入的内容
- vim mapred-site.xml
- vim yarn-site.xml 要加入的内容
-
启动
要保证DataNode NameNode是启动的 yarn-daemon.sh start resourcemanager yarn-daemon.sh start nodemanager jps查看启动的进程
- jps
- jps
-
查看 在浏览器端
testmachine2:8088(因为我的虚拟机的主机名就是testmachine2,在主机也配置了,所以主机名+端口号即可访问)
-
执行命令
命令:hadoop jar /home/hduser/software/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /hduser/input /hduser/output1
▶ \blacktriangleright ▶ 监控进程配置
- 配置mapred-site.xml
- 命令vim mapred-site.xml
- 命令vim mapred-site.xml
▶ \blacktriangleright ▶ 配置日志的聚集
-
先明确几个概念
- 日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上
- 日志聚集的好处:方便查看程序运行详情,方便开发调试
- 注意:开启日志聚集功能需要重新启动nodemanager、resourcemanager、historyserver
-
配置yarn-site.xml
- 命令:vim yarn-site.xml
- 命令:vim yarn-site.xml
-
启动 nodemanager、resourcemanager、historyserver 然后jps检验
▶ \blacktriangleright ▶ 开启关闭nodemanager、resourcemanager、historyserver
-
关闭命令
mr-jobhistory-daemon.sh start historyserver yarn-daemon.sh stop nodemanager yarn-daemon.sh stop resourcemanager
-
开启命令
yarn-daemon.sh start resourcemanager yarn-daemon.sh start nodemanager mr-jobhistory-daemon.sh stop historyserver 启动NameNode:hadoop-daemon.sh start namenode 启动DataNode:hadoop-daemon.sh start datanode