查找文本中n个出现频率最高的单词

最新推荐文章于 2024-07-19 20:55:28 发布

acceptedwwh

最新推荐文章于 2024-07-19 20:55:28 发布

阅读量4.3k

点赞数

分类专栏：操作系统_Linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/achiberx/article/details/77934671

版权

操作系统_Linux 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

问题1：查找文本中n个出现频率最高的单词

#!/bin/bash
end=$1   #S1是输出频率最高单词的个数
cat $2 |  #是目标文本文件的名称
tr -cs "[a-z][A-Z]" "[\n*]" |  #将文本文件以一行一个单词的形式显示
tr A-Z a-z | #将单词的大写字母转为小写字母
sort | #对单词排序
uniq -c | #对排序好的单词列表统计每一个单词出现的次数
sort -k1nr -k2 | #按出现频率排序，再按字母顺序排序
head -n "$end" #显示前$end行 如何$end = 5则显示先5行

假如脚本名为run.sh 单词文本文件名为words 想找出5个出现频率最高的单词及次数

./run.sh 5 words

1。将文件text中的单词，不是英文单词的都去掉，保留的每一个单词作为一行显示。

cat text | tr -cs "[a-z][A-Z]" "[\n*]"

这里写图片描述
2。uniq 去掉相邻重复的行，uniq -c 可以统计每一个行出现的次数，一般和sort结合使用。

3。显示文本text前5行.

cat text | head -n 5

问题2：将一个text文件中的单词”xyz”替换为另一个单词”abc”并写入newfile文本文件。

cat text | tr "xyz" "abc" > newfile

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。