Linux统计单词出现次数

现有个word.txt文件,里面是各种单词,单词之间以一个空格分隔,不含标点符号:

today is a good day
but i dont feel very well
well i think i was sick
this sick day

需要统计每个单词出现次数,并按照出现次数倒序排列展示。

1.首先需要将多行单词合并为一行,

可以使用

cat word.txt | sed ':a;N;$!ba;s/\n/ /g'

或者

cat word.txt | tr "\n" " "

2.接着利用awk统计词频

指定空格为分隔符后,用for循环读取全部单词,NF为最后一个单词所在位置,因此需要循环NF次。接着将读取到的单词作为key写入到数组a中,value就是该单词出现的次数。读取完所有单词后,再利用一个for循环去读取数组a中的所有key和value,即单词及其出现次数。最后使用sort并指定第二列的出现次数字段倒序排列。

完整命令:

cat word.txt | sed ':a;N;$!ba;s/\n/ /g'|awk 'BEGIN{FS=" "}{for(i=1;i<=NF;i++){a[$i]++}}END{for(i in a){print i,a[i]}}' |sort -n -t " " -k 2 -r

结果:

i 3
well 2
sick 2
day 2
was 1
very 1
today 1
this 1
think 1
is 1
good 1
feel 1
dont 1
but 1
a 1

 

  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值