shell数据清洗相关命令

       在将数据加载进Hive时,经常需要对数据进行初步的多文件合并,分隔符替换统一等初步数据清洗需求,针对此种场景可以使用shell简单高效的完成相关工作,一下简单总结记录。

将目录下的多个文件合并成一个文件
1、进入目录,
cat a.txt b.txt c.txt > all.txt
cat *.txt > all.txt
2、命令将当前目录下的文件合并
find . -type f -exec cat {} \;>all_files.txt
3、通过命名特征查询合并
find . -name "*.txt" | xargs cat > all.txt
4、合并并设置默认换行符
find . -name "*.txt" | xargs sed 'a\' > all_a.txt

替换文件中的字符串
1、将当前目录下包含jack串的文件中,jack字符串替换为tom
sed -i "s/jack/tom/g" `grep "jack" -rl ./`
2、将某个文件中的jack字符串替换为tom
sed -i "s/jack/tom/g" test.txt
3、替换fileName文件中的空格
sed s/[[:space:]]//g fileName
4、替换fileName文件中的空行
grep -v "^$" fileName
5、统计fileName文件中文本行数
awk 'END{print NR}' fileName
6、对fileName1文件中的内容进行去重并输出到fileName2中
cat fileName1 | sort -n | sort -u > fileName2
sort -n 表示 排序
sort -u 表示 去重
sort -r 表示 对当前排序取反
sort -o 可以重定向到原文件(即为在源文件上修改)

 

转载于:https://my.oschina.net/peakfang/blog/2236824

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值