python实现统计汉字／英文单词数的正则表达式

最新推荐文章于 2022-07-20 20:43:53 发布

qwer__mei98382

最新推荐文章于 2022-07-20 20:43:53 发布

阅读量1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qwer__mei98382/article/details/27178869

版权

本文档介绍如何使用Python的正则表达式来统计文本中汉字和英文单词的数量，提供了详细的代码示例和参考资料链接。

摘要由CSDN通过智能技术生成

思路

•使用正则式 "(?x) (?: [w-]+ | [x80-xff]{3} )"获得utf-8文档中的 英文单词和汉字的列表。
•使用dictionary来记录每个单词／汉字出现的频率，如果出现过则＋1，如果没出现则置1。
•将dictionary按照value排序，输出。

源码
代码如下:
#!/usr/bin/python
# -*- coding: utf-8 -*-
#
#author: rex
#blog: http://iregex.org
#filename counter.py
#created: Mon Sep 20 21:00:52 2010
#desc: convert .py file to html with VIM.

import sys
import re
from operator import itemgetter

def readfile(f):
with file(f,"r") as pFile:
return pFile.read()

def divide(c, regex):
#the regex below is only valid for utf8 coding
return regex.findall(c)

def update_dict(di,li):
for i in li:

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python实现统计汉字／英文单词数的正则表达式

思路 •使用正则式 "(?x) (?: [w-]+ | [x80-xff]{3} )"获得utf-8文档中的英文单词和汉字的列表。•使用dictionary来记录每个单词／汉字出现的频率，如果出现过则＋1，如果没出现则置1。•将dictionary按照value排序，输出。源码代码如下: #!/usr/bin/python # -*- coding:
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。