Hadoop安装
部署Hadoop集群就是部署:
● HDFS集群: 负责文件读写 name node 、data node
● YARN集群:负责为Mapreduce程序分配运算硬件资源(name node机器上的resource manager、 data node机器上node manager)
Hadoop Shell 命令
常用命令格式:
hadoop command [genericOptions] [commandOptions]
fs命令是最常用的命令,可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件。
hadoop fs [genericOptions] [commandOptions]
配置好Hadoop集群后,可以通过浏览器:"http://ip:50070"访问HDFS文件系统。我们可以查看当前文件系统中各个节点的分布信息,浏览NameNode节点上的存储、登录等日志。Web界面的所有功能都能通过Hadoop提供的Shell命令或者Java API来实现。
●在hadoop上创建文件夹:
hadoop fs -mkdir -p /wordcount/input
●往hadoop上传文件:
hadoop fs -put a.txt b.txt /wordcount/input
●查看hadoop上的文件内容:
hadoop fs -cat /wordcount/output/part-r-00000
●可以通过浏览器观察hadoop的文件状况:
主机名:端口号/explorer/html#/具体目录
如:
mini1:50070/explorer.html#/wordcount/input
●执行mapreduce运算程序,举例wordcount命令:
hadoop jar hadoop-mapreduce-examples-2.6.4.jar wordcount /wordcount/input/ /wordcount/output/
常见问题:
Hadoop分布式集群搭建(CDH)
环境介绍
前置配置
1)ssh免密登录
各节点之间通信使用免密。
#ll -la 可以看到以.为开头的文件(隐藏文件)。
1、每台机器执行:ssh-keygen -t rsa ;
2、在hadoop000上执行ssh-copy -i 三条命令 ;
2) JDK安装
略。
集群搭建
1)Hadoop安装
2)分发安装包到hadoop001和hadoop002
3) 对NN做格式化
4)启动集群
5)验证
hadoop能用到的系统端口(hadoop能用到的系统端口_wulantian的博客-CSDN博客)
50070: HDFS
8088:YARN
6)停止
集群使用
#hadoop fs -ls /
#hadoop fs -mkdir /data
bin/hadoop jar ~/local/chc/resultFilter.jar tju/chc/ResultFilter hdfs://master:9000/test/input/ file:///home/hadoopuser1/local/chc/tmp/ txt 50
标准:hadoop jar jar包 主类 输入地址 输出地址 入参