汉语词频统计

该案例以党的十九大报告为例,统计报告中各个词语出现的频率。总体步骤为读入文本,分词,词频统计。通过观察词语频率最高的几个词,我们就可以大致了解这份报告的主要内容。

汉语中常见的停用词:我们,这里,但是,的,然而之类的词语,对于文章表达的主旨没有太大的影响。

十九大报告链接:

链接:https://pan.baidu.com/s/1xI91MdfXZzQ1Ibms9EEiAg
提取码:ne3l

#打开文件并读取文本内容
f = open('D:\\py_dataset\\十九大报告.txt','r',encoding = 'utf-8')
txt = f.read()

#切分词语,使用jieba分词器
import jieba
words = jieba.lcut(txt)

#查看总的词语数量
print(len(words))
#17961

#查看单独词语的数量
print(len(set(words)))
#3349

#词频统计,统计长度大于1的词,因为长度为一的词基本上都是停用词
counts = {}
for word in words:
    if len(word) > 1:
        counts[word] = counts.get(word,0)+1 #使用了字典的get方法
        
#将counts转化为列表格式
counts = list(counts.items())

#对词频进行排序
counts.sort(key = lambda x:x[1],reverse = True)

#打印频率最高的前10个词
for i in range(10):
    print(counts[i][0],counts[i][1])
# 发展 212
# 中国 169
# 人民 157
# 建设 148
# 社会主义 147
# 坚持 131
# 全面 90
# 国家 90
# 实现 83
# 制度 83    

由上面的统计结果可以看出,“发展”、“人民”、“社会主义”、“制度”等词语出现的频率最高,基本上我们就了解了十九大报告主要是在论述社会主义制度建设。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值