如何使用python做文本统计

Sweethonor

已于 2023-11-17 16:18:36 修改

阅读量245

点赞数

分类专栏： Python 文章标签： python 开发语言

于 2023-11-17 16:16:12 首次发布

本文链接：https://blog.csdn.net/Sweethonor/article/details/134465296

版权

Python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

系列文章目录
前言
一、jieba库是什么？
二、使用步骤
- 1.导入jieba库
  
  2.具体操作步骤
总结

前言

随着人工智能的不断发展，这是一个三国演义的文本词频的统计案例。

一、jieba是什么？

jieba库是中文分词库

二、使用步骤

1.引入库

代码如下：#1 导入jieba中文分词库
import jieba

2.读入数据

代码如下：#2 读三国演义.txt，读出来的内容利用jieba库的lcut方法进行分词返回一个列表
#文件名，读写模式
f=open("proiect_sanguo.txt","r",encoding="utf-8")
txt=f.read()#读出来所有内容返回字符串
f.close()#关闭代码和文件的链接
list_word=jieba.lcut(txt)
#print(list_word[:200])

#3对列表进行统计,保存每个词出现的次数，按降序排序
d={}
for word in list_word:
   # if word not in d.keys():
   #     d[word]=1#第一次出现，以word为key，1为value
   # else:
   #     d[word]=d[word]+1#不是第一次出现，拿到出来次数＋1
   #统计到字典里以前，先过滤一些内容不要（长度为1的）# print(list_word[:200])
       if len(word) == 1 or word in {"如此", "将军", "却说", "荆州", "二人", "不可", "不能"}:
           continue
       # 把相似的单词统计到一起
       if word in {"孟德", "丞相"}:
           word = "曹操"
       elif word in {"孔明", "孔明曰"}:
           word = "诸葛亮"
       elif word in {"关公", "云长"}:
           word = "关羽"
       elif word in {"玄德", "玄德曰"}:
           word = "如此"
       d[word] = d.get(word, 0) + 1
list_order = sorted(d.items(), key=lambda t: t[1], reverse=True)
   #print(list_order[:200])
#打印出来
for name,times in list_order[:5]:
   print(f"{name}的出场次数为{times}")