准备工作
- 下载好需要分析的小说txt文件,这里我选择的是《龙族》的第一部。
- 小说人物名字的txt文件。
- 中文停用词txt文件。
- 安装好jieba库。
正式开始
用jieba.cut()
完成分词后统计各人物的出场次数.
import jieba
import pickle
import jieba.analyse
names = {
}
all_names = []
sentence = []#用来保存分词结果
text_path = '/Users/XH/Desktop/bishe/longzu.txt'
jieba.load_userdict('/Users/XH/Desktop/bishe/name.txt')
jieba.analyse.set_stop_words('/Users/XH/Desktop/bishe/stopwords.txt')
使用load_userdict()
添加自定义词典,这里把人物名字加进去,再载入停用词,这样能使分词结果更加准确。
f = open(text_path,'r')
f1 = open('/Users/XH/Desktop/bishe/name.txt','r')
#读取各人物的名字
for line in f1.readlines():
all_names