文章目录
- 系列文章目录
- 前言
- 一、jieba库是什么?
- 二、使用步骤
-
1.导入jieba库
2.具体操作步骤
-
- 总结
前言
随着人工智能的不断发展,这是一个三国演义的文本词频的统计案例。
一、jieba是什么?
jieba库是中文分词库
二、使用步骤
1.引入库
代码如下:#1 导入jieba中文分词库
import jieba
2.读入数据
代码如下:#2 读三国演义.txt,读出来的内容利用jieba库的lcut方法进行分词 返回一个列表
#文件名,读写模式
f=open("proiect_sanguo.txt","r",encoding="utf-8")
txt=f.read()#读出来所有内容返回字符串
f.close()#关闭代码和文件的链接
list_word=jieba.lcut(txt)
#print(list_word[:200])
#3对列表进行统计,保存每个词出现的次数,按降序排序
d={}
for word in list_word:
# if word not in d.keys():
# d[word]=1#第一次出现,以word为key,1为value
# else:
# d[word]=d[word]+1#不是第一次出现,拿到出来次数+1
#统计到字典里以前,先过滤一些内容不要(长度为1的)# print(list_word[:200])
if len(word) == 1 or word in {"如此", "将军", "却说", "荆州", "二人", "不可", "不能"}:
continue
# 把相似的单词统计到一起
if word in {"孟德", "丞相"}:
word = "曹操"
elif word in {"孔明", "孔明曰"}:
word = "诸葛亮"
elif word in {"关公", "云长"}:
word = "关羽"
elif word in {"玄德", "玄德曰"}:
word = "如此"
d[word] = d.get(word, 0) + 1
list_order = sorted(d.items(), key=lambda t: t[1], reverse=True)
#print(list_order[:200])
#打印出来
for name,times in list_order[:5]:
print(f"{name}的出场次数为{times}")
总结
以上就是今天要讲的内容,本文仅仅简单介绍了jieba库的使用,这是我学习时的小记录,不喜勿喷。