统计特定文件中的词频

最新推荐文章于 2021-04-29 07:36:57 发布

BruceZhang

最新推荐文章于 2021-04-29 07:36:57 发布

阅读量5.9k

点赞数 2

分类专栏： Shell脚本学习 Linux Shell 脚本攻略文章标签：职场 Word 测试 AWK 脚本

本文链接：https://blog.csdn.net/dlutbrucezhang/article/details/9249495

版权

Shell脚本学习同时被 2 个专栏收录

32 篇文章 0 订阅

订阅专栏

Linux Shell 脚本攻略

32 篇文章 26 订阅

订阅专栏

查找文件中使用的单词的频率是一件很有意思的事情，下面，我们利用关联数组，awk，sed，grep 等不同的方式来解决问题。

首先，我们需要一个测试用的文本，保存名为 word.txt

内容如下：

Word used
this  counting
this

接下来需要编写Shell脚本程序，如下所示：

#!/bin/bash
#Name: word_freq.sh
#Description: Find out frequency of words in a file

if [ $# -ne 1 ];
then
	echo "Usage: $0 filename";
	exit -1
fi

filename=$1

egrep -o "\b[[:alpha:]]+\b" $filename | \

awk '{ count[$0]++ } END{ printf("%-14s%s\n","Word","Count") ; \
 for(ind in count) { printf("%-14s%d\n",ind,count[ind]); } }'

工作原理介绍：

1.egrep -o "\b[[:alpha:]]+\b" $filename 用来只输出单词，用 -o 选项打印出由换行符分割的匹配字符序列，这样我们就可以在每行中列出一个单词

2.\b 是单词边界标记符。[:alpha:] 是表示字母的字符类

3.awk命令用来避免对每一个单词进行迭代

下面给出运行的截图：

关于awk命令请参考博主的其他博客。

BruceZhang

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计特定文件中的词频

查找文件中使用的单词的频率是一件很有意思的事情，下面，我们利用关联数组，awk，sed，grep 等不同的方式来解决问题。首先，我们需要一个测试用的文本，保存名为 word.txt内容如下：Word usedthis countingthis接下来需要编写Shell脚本程序，如下所示：#!/bin/bash#Name: word_freq.sh#Description: Find o
复制链接

扫一扫