【sed&awk】统计文本中单词的分布

最新推荐文章于 2022-06-06 15:36:01 发布

billfeller

最新推荐文章于 2022-06-06 15:36:01 发布

阅读量1.1k

点赞数

分类专栏： linux

本文链接：https://blog.csdn.net/billfeller/article/details/8294242

版权

linux 专栏收录该内容

69 篇文章 0 订阅

订阅专栏

  作者:zhanhailiang 日期:2012-12-14

脚本如下：

zhanhailiang@linux-06bq:~> cat summary.sh
#/bin/sh
 
sed -e '{s/[.,?:;,/()]\+//g}' $1|awk -f for.awk |sort|uniq -c|awk '{printf("%30s\t%-10d\n", $2, $1);}'

其中for.awk脚本如下：

zhanhailiang@linux-06bq:~> cat for.awk 
{
    for(i = NF; i > 0 && $i ~ /^[a-zA-Z][a-zA-Z.?:\\,]+/; i--) {
        print $i;
    }
};

使用方法如下：

zhanhailiang@linux-06bq:~> ./summary.sh en
                        accept  1         
                           Add  1         
                         adult  2         
                         after  1         
                           air  1         
                           and  6         
                          area  1         
                            as  1         
                     attention  1         
                            be  2         
                      boarding  1         
                          Book  1         
                        booked  1         
                       booking  2         
                       ...

billfeller

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【sed&awk】统计文本中单词的分布

作者:zhanhailiang 日期:2012-12-14脚本如下：zhanhailiang@linux-06bq:~> cat summary.sh#/bin/sh sed -e '{s/[.,?:;,/()]\+//g}' $1|awk -f for.awk |sort|uniq -c|awk '{printf("%30s\t%-10d\n", $2, $1);}'其
复制链接

扫一扫

专栏目录