利用jieba分词分析小说一

本文通过jieba库对《龙族》第一部进行分词分析,首先进行准备工作,包括获取小说文本、人物名字及停用词列表,并安装jieba库。接着,对文本进行分词并统计人物出场次数,结果显示路明非为主角,诺诺为女一。随后,使用jieba的TF-IDF算法提取关键词,发现路明非权重最高,验证了分词结果的准确性。
摘要由CSDN通过智能技术生成

准备工作

  • 下载好需要分析的小说txt文件,这里我选择的是《龙族》的第一部。
  • 小说人物名字的txt文件。
  • 中文停用词txt文件。
  • 安装好jieba库。

正式开始

jieba.cut()完成分词后统计各人物的出场次数.

import jieba
import pickle
import jieba.analyse
names = {
   }
all_names = []
sentence = []#用来保存分词结果
text_path = '/Users/XH/Desktop/bishe/longzu.txt'
jieba.load_userdict('/Users/XH/Desktop/bishe/name.txt')
jieba.analyse.set_stop_words('/Users/XH/Desktop/bishe/stopwords.txt')

使用load_userdict()添加自定义词典,这里把人物名字加进去,再载入停用词,这样能使分词结果更加准确。

f = open(text_path,'r')
f1 = open('/Users/XH/Desktop/bishe/name.txt','r')

#读取各人物的名字
for line in f1.readlines():
    all_names
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值