linux shell查找文本中n个出现频率最高的单词

本文介绍了一种利用 Linux Shell 命令行工具高效处理文本的方法,通过几个简单的命令组合即可找出文本文件中出现频率最高的 n 个单词。此方法不仅简单快捷,而且对于文本分析和数据预处理工作非常实用。
摘要由CSDN通过智能技术生成

  linux shell对文本的处理相当强大,通常几条简单的命令就能实现高级语言很多代码才能实现的功能。以下是查找文本中n个出现频率最高的单词的脚本。

  1 #! /bin/bash
  2 
  3 cat "$1" |
  4 tr -cs '[a-z][A-Z]' '[\012*]' |
  5 tr 'A-Z' 'a-z' |
  6 sort |
  7 uniq -c |
  8 sort -k1nr -k2 |
  9 head -n "$2"

  运行脚本,其中第一个参数是待查找的文本文件,第二个参数是n的值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值