Python编程——词频统计（对指定的文档内容进行统计）

最新推荐文章于 2023-08-07 00:39:01 发布

橘子女侠

最新推荐文章于 2023-08-07 00:39:01 发布

阅读量7.4k

点赞数 5

分类专栏： python编程

本文链接：https://blog.csdn.net/qq_38684504/article/details/85388585

版权

本文介绍了一个使用Python进行词频统计的小案例，通过读取指定文档，遍历字符，存储在字典中并进行计数，然后转换为列表排序，最终输出词频由高到低的结果。

摘要由CSDN通过智能技术生成

这个python的小案例代码量很少，功能是实现对指定的文章内容进行词频统计的功能，并实现次数的由大到小排列。

这个案例的思路如下：

首先对指定的文档进行读取，采用的是with open读取指定的文档
然后对读取的信息按照每个字符进行遍历，并将其存放在一个字典中
如果某个字符在文档中出现过，则对这个字符加1；如果没有出现过，则赋值为1
其次，将生成的字典转化为列表的形式，转化之后，对应的键值格式变为元祖的格式，{'总': 1, '结': 1}-------->[('总', 1), ('结', 1)]
最后，对生成的类表进行排序，并打印出结果

词频统计

代码如下：

# 词频统计
#打开要统计的文档
with open("我的总结.txt", encoding="utf-8") as f:
    lines = f.read()
cptj = {}
#将词频统计的结果存放到一个字典中
for line in lines:
    if line in cptj:
        cptj[line] += 1
    else:
        cptj[line] = 1
#将字典转化为类表方便进行后续的处理
lcptj = list(cptj.items())
#对生成的结果进行排序，按照每个元祖下标为1的数进行排序
lcptj.sort(key=lambda x: x[1], reverse=True)
count&#