bash 词频统计

写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的频率。

为了简单起见,你可以假设:

  • words.txt只包括小写字母和 ' ' 。
  • 每个单词只由小写字母组成。
  • 单词间由一个或多个空格字符分隔。

示例:

假设 words.txt 内容如下:

the day is sunny the the
the sunny is is

你的脚本应当输出(以词频降序排列):

the 4
is 3
sunny 2
day 1

sort:
sort -n 将字符串转数字
sort -r 指定顺序为从大到小
sort -k 2 指定第二个字段作为排序判断标准

 sort -rnk 1  (r表示逆向排序, n表示按数值排序, k表示按第k列进行排序)

sort | uniq -c 通常一起用来统计重复出现的次数。

uniq可检查文本文件中重复出现的行列, -c或--count 在每列旁边显示该行重复出现的次数。

cat:

cat m1 (在屏幕上显示文件ml的内容)

cat m1 m2 (同时显示文件ml和m2的内容)

cat m1 m2 > file (将文件ml和m2合并后放入文件file中)

tr -s:  -s, --squeeze-repeats  

replace each input sequence of a repeated character                            

that is listed in SET1 with a single occurrence                            

of that character

tr -s ' ' '\n'可实现把空格替换为换行符的分割操作

答案:

cat words.txt | tr -s ' ' '\n' | sort | uniq -c | sort -rn | awk '{print $2, $1}'

 

转载于:https://my.oschina.net/lfxu/blog/1818874

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值