利用jieba分词分析小说一

最新推荐文章于 2023-03-21 22:43:36 发布

熊航

最新推荐文章于 2023-03-21 22:43:36 发布

阅读量2.4k

点赞数 1

本文链接：https://blog.csdn.net/qq_33320337/article/details/86694040

版权

本文通过jieba库对《龙族》第一部进行分词分析，首先进行准备工作，包括获取小说文本、人物名字及停用词列表，并安装jieba库。接着，对文本进行分词并统计人物出场次数，结果显示路明非为主角，诺诺为女一。随后，使用jieba的TF-IDF算法提取关键词，发现路明非权重最高，验证了分词结果的准确性。

摘要由CSDN通过智能技术生成

准备工作

下载好需要分析的小说txt文件，这里我选择的是《龙族》的第一部。
小说人物名字的txt文件。
中文停用词txt文件。
安装好jieba库。

正式开始

用jieba.cut()完成分词后统计各人物的出场次数.

import jieba
import pickle
import jieba.analyse
names = {
   }
all_names = []
sentence = []#用来保存分词结果
text_path = '/Users/XH/Desktop/bishe/longzu.txt'
jieba.load_userdict('/Users/XH/Desktop/bishe/name.txt')
jieba.analyse.set_stop_words('/Users/XH/Desktop/bishe/stopwords.txt')

使用load_userdict()添加自定义词典，这里把人物名字加进去，再载入停用词，这样能使分词结果更加准确。

f = open(text_path,'r')
f1 = open('/Users/XH/Desktop/bishe/name.txt','r')

#读取各人物的名字
for line in f1.readlines():
    all_names

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

熊航

关注关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

利用jieba分词分析小说三

qq_33320337的博客

02-08

717

在之前分词的基础上进一步分析人物的关系。首先先把每一行小说里面的人物名字统计出来，只需在之前统计各人物出场次数的基础上增加一点代码即可： sentence = [] for line in f.readlines(): seg_list = jieba.cut(line,cut_all=False) unique_list = [] linenames.append([]...

python 小说云_Python小说分词实现简单词云

weixin_39781143的博客

11-20

258

1. 说明对小说进行分词处理，获取人物出现此数最多的10人，生成简单词云2. 素材准备IDE : Pycharm小说：神雕侠侣.txt图片：t*bu logo2. 下载模块打开命令行，输入执行pip install jiebapip install wordcloudpip install matplotlibpip install imageio3. 代码对小说文本，得到包含人物出场次数前十的人...

1 条评论您还未登录，请先登录后发表或查看评论

使用jieba分析小说太古神王中，男主更爱谁？去文章中找答案吧！

清风Python

07-24

540

特大好消息周三晚上，我媳妇儿就要带着俩小爷去重庆姐姐家玩了，我又可以一个人开心的学习、玩耍了，想着都开心到失眠啊...失眠怎么办？写公众号啊，哈哈。文本分析很多时候，我们会去统计一片文章中的高频词汇，以此来作为文章的关键词条，那么词频分析在python中，该用什么模块做？jieba！第一次听到这个词就乐了，一个“结巴”，帮助我们统计词频...但仔细了解这个模块后，你会发现它...

【无标题】《三国演义》小说分词、词频、词性、词云、小说人物出场次序排序以及人物关系的分析

m0_51771958的博客

03-21

293

于2023年3月21日发表于黑龙江。4、小说人物出场次序。

Desiy的博客

06-13

4378

将此题分为两个步骤：找出高频词汇首先我们需要使用python中的jieba库；目前最好的 Python 中文分词组件，它主要有以下 3 种特性：支持 3 种分词模式：精确模式、全模式、搜索引擎模式支持繁体分词支持自定义词典具体案例：https://www.jianshu.com/p/883c2171cdb5 安装：使用管理员身份打开CMD：输入pip install jieba下载成功后打开pyCharm，如果没有jieba，点击右边的“+”号添加即可。读取文本文件，我们在第十章学到过

HTML5街头霸王游戏

12-02

这是一款HTML5实现的街头霸王游戏源码，游戏中可以操控人物各项技能，并且能实现大战电脑或双人对战，游戏中还附有背景音乐效果。此外这款游戏源码开放，是研究和学习HTML5游戏制作的极佳参考！主机控制键: 移动: W...

jieba分词详解和实践

01-20

总之，jieba分词是一个强大且灵活的工具，它结合了精确的词典分词与高效的TF-IDF关键词提取，为中文文本的处理提供了便利。无论是学术研究还是商业应用，jieba都能帮助开发者高效地处理中文数据，挖掘文本中的隐藏...

StreetFighter 街头霸王网页游戏源码.zip

08-30

《街头霸王》是一款深受全球玩家喜爱的经典格斗游戏，而"StreetFighter 街头霸王网页游戏源码.zip"则提供了将这一经典移植到网页平台的源代码资源。这个压缩包包含了开发一款基于HTML的小游戏所需的所有核心元素，让...

html小游戏-街头霸王street_fighter.zip

05-11

《街头霸王》是一款深受玩家喜爱的经典格斗游戏，而在HTML技术的支持下，我们可以将这款经典游戏移植到网页上，让玩家在浏览器中就能体验到原汁原味的战斗乐趣。这个"html小游戏-街头霸王street_fighter.zip"压缩包...

精品源码 / 休闲游戏 / 街头霸王格斗

01-17

【街头霸王格斗】是一款深受玩家喜爱的经典休闲游戏，它属于格斗类游戏中的佼佼者，具有深厚的历史底蕴和广泛的粉丝基础。游戏的核心玩法是通过键盘操作，控制角色与电脑或其他玩家进行一对一的激烈对决，考验玩家的...

文本分析3-jieba分词

qq_43165880的博客

08-16

2409

笔记来自课程：玩转文本挖掘（51ct0学院），总结整理为个人学习、复习使用，供参考。分词思想和工具也有很多，这里先只学习jeiba分词。 jieba分词三种分词模式精确模式：试图将句子最精确分开，适合做文本分析(默认精确模式) 全模式：把句子中所有可以成词的词语扫描出来，速度快，但不能解决歧义搜索引擎模式：在精确模式基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词（考虑了搜索引擎的需求，主要是为了提高搜索引擎的命中率）另外，也支持繁体分词和自定义词典基本使用 import jie

jieba库统计出现词语次数和词云绘制

weixin_42447865的博客

08-15

5154

jieba库是 Python 第三方中文分词库，分词原理是利用一个中文词库，将待分词的内容与分词词库进行比较，通过图和动态规划方法找到最大概率的词组。 jieba 支持三种分词模式：精确模式、全模式和搜索引擎模式（1）精确模式：试图将语句最精确的切分，不存在冗余数据，适合做文本分析。 jieba.lcut(s)–返回列表 jieba.cut(s)–返回一个可迭代的generator，可以使用 for 循环来获得分词后得到的每一个词语（可以用.join(generator)输出str类型） import j

jieba词频统计、关键词提取、词云图制作

酱汁儿

03-27

6468

1、jieba分词及词频统计 import jieba import pandas as pd content = open('./测试.txt',encoding='utf-8').read() #分词 words = jieba.cut(content) word_list = list(word for word in words) #使用pandas统计并降序排列 df = pd....

使用jieba分析小说太古神王中，男主更爱谁？去文章中找答案吧！#华为云·寻找黑马程序员#

SlaughterDevil的博客

07-25

538

特大好消息周三晚上，我媳妇儿就要带着俩小爷去重庆姐姐家玩了，我又可以一个人开心的学习、玩耍了，想着都开心到失眠啊…失眠怎么办？写公众号啊，哈哈。文本分析很多时候，我们会去统计一片文章中的高频词汇，以此来作为文章的关键词条，那么词频分析在python中，该用什么模块做？jieba！第一次听到这个词就乐了，一个**“结巴”，帮助我们统计词频…但仔细了解这个模块后，你会发现它的强大。怎么证明？来...

【jieba库】使用jieba库对《三国演义》全篇进行分词处理，统计《三国演义》中各个人物的出场次数，打印次数排名前五的人物姓名具有排除词库和合并不同称谓功能的Python程序|CSDN创作打卡

qq_59049513的博客

01-24

4344

使用jieba库对《三国演义》全篇的文本文件进行分词处理，然后对分词后的文本进行处理，统计《三国演义》中各个人物的出场次数，然后将出场次数排名前五的名字和出场次数在窗口中打印。设置排除词库，将《三国演义》中出现次数较多而不是人物姓名的词屏蔽，从而打印出的出现最多的词都是《三国演义》中的人物姓名，同时设置合并程序，将同一个人物的不同称谓进行归一化处理，然后不同的称谓同样在该人物的出场次数上计数，从而实现完整的统计人物的出场次数。

魔道祖师小说jieba分词

easterding的博客

04-25

810

要分词的文章分完词的结果词云图词频前十直方图停用词在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。添加自定义词典为了解决新词问题，jieba分词基于HMM算法会自动识别新词，我们这里直接给出新词表（dict2.txt），提高准确率。 jieba.load_userdict('文件路径/魔道祖师分.

我用jieba numpy worldcloud 做了几个小说的词云大家看看都是谁的什么小说

事实证明的博客

09-19

757

代码import io import codecs import jieba import matplotlib.pyplot as plt import numpy as np import PIL.Image as Image from wordcloud import WordCloud,ImageColorGenerator f = codecs.open("小说名.txt","r","ut

python分析《水浒传》小说，对文本数据内容清洗、分词、统计、词云可视化展示