Linux:统计文件词频

最新推荐文章于 2023-09-11 09:48:45 发布

学无止境丶

最新推荐文章于 2023-09-11 09:48:45 发布

阅读量3.2k

点赞数

分类专栏： Unix网络编程

Unix网络编程专栏收录该内容

7 篇文章 0 订阅

订阅专栏

#!/bin/bash  
#Name: word_freq.sh  
#Description: Find out frequency of words in a file  
  
if [ $# -ne 1 ];  
then  
    echo "Usage: $0 filename";  
    exit -1  
fi  
  
filename=$1  
  
egrep -o "\b[[:alpha:]]+\b" $filename | \  
  
awk '{ count[$0]++ } END{ printf("%-14s%s\n","Word","Count") ; \  
 for(ind in count) { printf("%-14s%d\n",ind,count[ind]); } }'

工作原理介绍：

1.egrep -o "\b[[:alpha:]]+\b" $filename 用来只输出单词，用 -o 选项打印出由换行符分割的匹配字符序列，这样我们就可以在每行中列出一个单词

2.\b 是单词边界标记符。[:alpha:] 是表示字母的字符类

3.awk命令用来避免对每一个单词进行迭代

1.egrep默认支持正则表达式，grep默认不支持。

2. awk '{pattern + action}' {filenames}

awk工作流程是这样的：读入有'\n'换行符分割的一条记录，然后将记录按指定的域分隔符划分域，填充域，$0则表示所有域,$1表示第一个域,$n表示第n个域。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

学无止境丶

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Linux:统计文件词频

#!/bin/bash #Name: word_freq.sh #Description: Find out frequency of words in a file if [ $# -ne 1 ]; then echo "Usage: $0 filename"; exit -1 fi filename=$1 egrep -o
复制链接

扫一扫