查找文本中n个出现频率最高的单词

最新推荐文章于 2024-05-16 02:03:52 发布

acceptedwwh

最新推荐文章于 2024-05-16 02:03:52 发布

阅读量4.3k

点赞数

分类专栏：操作系统_Linux

本文链接：https://blog.csdn.net/achiberx/article/details/77934671

版权

操作系统_Linux 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

问题1：查找文本中n个出现频率最高的单词

#!/bin/bash
end=$1   #S1是输出频率最高单词的个数
cat $2 |  #是目标文本文件的名称
tr -cs "[a-z][A-Z]" "[\n*]" |  #将文本文件以一行一个单词的形式显示
tr A-Z a-z | #将单词的大写字母转为小写字母
sort | #对单词排序
uniq -c | #对排序好的单词列表统计每一个单词出现的次数
sort -k1nr -k2 | #按出现频率排序，再按字母顺序排序
head -n "$end" #显示前$end行 如何$end = 5则显示先5行

假如脚本名为run.sh 单词文本文件名为words 想找出5个出现频率最高的单词及次数

./run.sh 5 words

1。将文件text中的单词，不是英文单词的都去掉，保留的每一个单词作为一行显示。

cat text | tr -cs "[a-z][A-Z]" "[\n*]"

这里写图片描述
2。uniq 去掉相邻重复的行，uniq -c 可以统计每一个行出现的次数，一般和sort结合使用。

3。显示文本text前5行.

cat text | head -n 5

问题2：将一个text文件中的单词”xyz”替换为另一个单词”abc”并写入newfile文本文件。

cat text | tr "xyz" "abc" > newfile

acceptedwwh

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
查找文本中n个出现频率最高的单词

#!/bin/bashend=$1 #S1是输出频率最高单词的个数cat $2 | #是目标文本文件的名称tr -cs "[a-z][A-Z]" "[\n*]" | #将文本文件以一行一个单词的形式显示tr A-Z a-z | #将单词的大写字母转为小写字母sort | #对单词排序uniq -c | #对排序好的单词列表统计每一个单词出现的次数sort -k1nr -k2 |
复制链接

扫一扫