在做文本处理时,我们经常需要统计文本单词数量,给大家分享一段代码。
open IN,'test.txt';
while(<IN>){
chomp; #出去换行符\n
$line = $_;
$line =~ s /[ . , ? ! ; : ' " ( ) { } \[ \]] / /g; #句号,逗号等统一改为空格
@words = split(/ /,$line);
foreach $word (@words){
++$counts{lc($word)
};
}
}; #将出现的单词存入hash表
foreach $word (keys %counts) {
print "$word,$counts{$word}\n";
}#打印出单词出现的个数