1.AWK
(1)获取demo.csv文件中第三列数据为2的数据并输出到1.csv
cat demo.csv|awk -F "," '$3=="2" {print $1","$2","1}' >>1.csv
(2)统计文件第三列为1的条数
hdfs dfs -cat /user/user-test_demo/Demo/demo.csv | awk -F "," '{print $3}' |grep 1|wc -l
(3)统计满足指定条件的第四列列之和
cat demo.csv|grep ,80855[0-9][0-9],|awk -F "," -v sum=0 '{sum+=$4} END{print sum}'
(4)if判断,demo.csv文件第二列大于5的数据输出出来($0表示全部输出)
cat demo.csv|awk -F, '{if ($3=1) print $0}'
(5)for循环
awk 'BEGIN{for(i=1;i<=5;++i) print i}'
(6)while循环
awk 'BEGIN {i=1;while(i<6){print i; ++i}}'
2.SED
(1)批量替换
sed -i 's/,2.000000000000000000000000000000/,2/g' 1.csv
(2)读取1到500的数据
sed -n '1,500p' demo.csv
3.yarn命令
(1)查看yarn 日志
yarn top -queues 队列名
(1)查看yarn 日志
yarn logs -applicationId ID号
yarn logs -applicationId application_1624327727087_151007
(3)杀死某个程序
yarn application -kill ID号
yarn application -kill application_1624327727087_31469
4.zip
压缩文件
zip -r 压缩后的文件名.要压缩的文件
zip -r Demo.zip *_demo20210620.csv
修改文件权限
chmod -R 777 Demo.zip
5.tail
通过查看日志实时追踪程序运行状态
tail -f demo.log