Python使用jieba库实现分词统计词频

virtual.machine

于 2022-04-13 09:17:44 发布

阅读量1.7k

点赞数 1

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_54070501/article/details/124140207

版权

jieba分词词频统计信息技术关键词中文文本处理高频词汇

关键词由CSDN通过智能技术生成

import jieba
#获得去除标点的文本
def get_text(file_name):
  with open(file_name, 'r', encoding='utf-8') as fr:
    text = fr.read()
    #要删除的标点
    del_ch = ['《','，','》','\n','。','、','；','"',\
      '：',',','！','？',' ']
    for ch in del_ch:
      text = text.replace(ch,'')#这里无需替换成空格
    return text

#文件名改为要分析的文件
file_name = 'xxx'
text = get_text(file_name)
vlist = jieba.lcut(text)#调用jieba实现分词，返回列表

res_dict = {}
#进行词频统计
for i in vlist:
  res_dict[i] = res_dict.get(i,0) + 1
res_list = list(res_dict.items())
#降序排序
res_list.sort(key = lambda x:x[1], reverse = True)
fin_res_list = []

#去除单个字的词
for item in res_list:
  if(len(item[0])>=2):
    fin_res_list.append(item)

for i in range(50):
  word,count = fin_res_list[i]
  pstr = str(i+1) + ':'

  print(word,count)

virtual.machine

关注

1
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

virtual.machine CSDN认证博客专家 CSDN认证企业博客

码龄4年

22: 原创

17万+: 周排名

87万+: 总排名

3万+: 访问

: 等级

240: 积分

302: 粉丝

15: 获赞

3: 评论

192: 收藏

私信

关注

热门文章

分类专栏

最新评论

浅谈MySQL和Oracle的区别
是个傻狗了: 你自己读读你都写了些什么捷豹东西
浅谈MySQL和Oracle的区别
qq_41687700: 真的翻翻书再来，别误人子弟，现在的这些博客，看的吐血
浅谈MySQL和Oracle的区别
Oliver486: mysql没有类似oracle的构造多版本数据的机制，只支持read commited的隔离级别，一个session读取数据时，其他session不能更改数据，但可以在表最后插入数据；session更新数据时，要加上排它锁，其他session无法访问数据。这点不敢苟同啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。