魔道祖师小说jieba分词_魔道祖师的代码是什么-CSDN博客

本文链接：https://blog.csdn.net/easterding/article/details/116138585

本文介绍了使用jieba库对《魔道祖师》小说进行分词，包括词云图和词频直方图的展示，并讨论了停用词在信息检索中的作用，同时展示了如何添加自定义词典提高分词准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

要分词的文章

在这里插入图片描述

分完词的结果

在这里插入图片描述

词云图
词频前十直方图

在这里插入图片描述

停用词
在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。

添加自定义词典
为了解决新词问题，jieba分词基于HMM算法会自动识别新词，我们这里直接给出新词表（dict2.txt），提高准确率。

jieba.load_userdict('文件路径/魔道祖师分词/dict2.txt')

在这里插入图片描述

代码实现

import numpy as np
import pandas as pd
import jieba
import wordcloud
from imageio import imread
import matplotlib.pyplot as plt
from pylab import mpl
import seaborn as sns
import os

#解决中文显示问题
mpl.rcParams['font.sans-serif']=['SimHei']
mpl.rcParams['axes.unicode_minus']

def get_stopwords():
    #获取停用词的路径
    dir_name_path=os.path.join