Python之文本词频统计

本人近期学习了一下关于利用Python统计统计中英文文本词频的应用,故记录一下。

在一篇中英文文本中,有些词总会重复出现,此次要做的工作就是分别统计中英文文本中的词频,英文文本以哈姆雷特剧本为文本,中文文本以三国演义为文本。

1、英文文本

英文文本如图:

对于英文文本来说,有几个问题需要考虑,首先是文本中出现的各种符号,在英文中出现的各类符号此处采用的处理方式为均用空格代替,其次是字母大小写问题,为了方便统计均处理为小写字母再统计。

所用代码为:

所得结果为:

2、中文文本

中文文本为:

对中文文本来说,并没有特殊符号进行干扰,也没有大小写的困扰,但是新的问题是,同一个历史人物会有不同的称谓,如诸葛亮、孔明、丞相指的都是同一个人,因此需要针对此做出一个处理。

所用代码为;

所得结果为:

需要注意的是,此处还进行了一个处理——即“excludes”,这是因为在中文分词时,会将一些非人名也作为人名进行了统计,因此需要进行排除,否则统计的前十个出现次数最多的人名中就会出现非人名。

  • 20
    点赞
  • 118
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值