jieba库的函数只有一个,lcut()
首先下载三国演义 TXT文件,utf-8格式

进行分词
import jieba
def get_text():
f = open('三国演义.txt','r',encoding='utf-8').read()
words = jieba.lcut(f)
return words

对于标点符号先不管它
思路:对于读出的列表,进行遍历,如果长度为1,说明是符号,略去,对于其他,进行词频统计,利用字典
import jieba
def get_text():
f = open('三国演义.txt','r',encoding='utf-8').read()
words = jieba.lcut(f)

本文介绍了如何使用jieba库对三国演义TXT文件进行分词,通过遍历和处理,去除非人物词汇和重复名称,进行词频统计,重点关注主要人物如曹操。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



