【sed&awk】统计文本中单词的分布

  作者:zhanhailiang 日期:2012-12-14

脚本如下:

zhanhailiang@linux-06bq:~> cat summary.sh
#/bin/sh
 
sed -e '{s/[.,?:;,/()]\+//g}' $1|awk -f for.awk |sort|uniq -c|awk '{printf("%30s\t%-10d\n", $2, $1);}'

其中for.awk脚本如下:

zhanhailiang@linux-06bq:~> cat for.awk 
{
    for(i = NF; i > 0 && $i ~ /^[a-zA-Z][a-zA-Z.?:\\,]+/; i--) {
        print $i;
    }
};

使用方法如下:

zhanhailiang@linux-06bq:~> ./summary.sh en
                        accept  1         
                           Add  1         
                         adult  2         
                         after  1         
                           air  1         
                           and  6         
                          area  1         
                            as  1         
                     attention  1         
                            be  2         
                      boarding  1         
                          Book  1         
                        booked  1         
                       booking  2         
                       ...   
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值