Hadoop集群的高频命令
- 查看共享文件在linux下的哪个地方
cd /mnt/hgfs/
- 在Linux下解压压缩包
tar xvzf
- 启动hadoop集群
./start-all.sh
先进入cd /usr/local/src
目录再启动hadoop - 从hdfs上把文件down下来
./hadoop fs -get /1.data /usr/local/src/
后面路径是文件down下来的存放地址 - 从hdfs上查看已经在的文件命令
./hadoop fs ls
- 查看集群运行好的文件输出
./hadoop fs -text /output/part-00001
- 本地模拟测试文件命令
cat 文件名 | python map.py | sort -k 1 | python reduce.py > outputFile
- 跑代码
bash run.sh
- hdfs上传文件
./hadoop fs -put
- 删除hdfs目录
./hadoop fs -rmr
- 杀掉hadoop集群运行中的环境
hadoop job -kill job 201710171458_0005
- 加入压缩包命令
tar cvzf w.tar.gz white_list_1 white_list_2
- 命令行全局排序
sort -k 1 -n
按照第一列的数字格式进行正序排序
sort -k 1 -rn
按照逆序排序
常用命令
|
管道
cat hello.txt | python map.py
将hello.txt传入到map.py文件执行- awk 根据条件执行
awk '$1>10{print $1}'
如果第一列大于10,就输出第一列的值 - sz:从服务器下载文件到本地
- rz:上传文件到服务器
- 2>&1解释:
0 是一个文件描述符,表示标准输入(stdin)
1 是一个文件描述符,表示标准输出(stdout)
2 是一个文件描述符,表示标准错误(stderr)
例子:0>file.in 1>file.out 2>file.err
将错误的输出内容输入到正确的输出文件中 2>&1 - &是一个描述符,如果1或2前不加&,会被当成一个普通文件。
1>&2 意思是把标准输出重定向到标准错误.
2>&1 意思是把标准错误输出重定向到标准输出。