- 要分词的文章
- 分完词的结果
- 词云图
- 词频前十直方图
停用词
在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。
添加自定义词典
为了解决新词问题,jieba分词基于HMM算法会自动识别新词,我们这里直接给出新词表(dict2.txt),提高准确率。
jieba.load_userdict('文件路径/魔道祖师分词/dict2.txt')
代码实现
import numpy as np
import pandas as pd
import jieba
import wordcloud
from imageio import imread
import matplotlib.pyplot as plt
from pylab import mpl
import seaborn as sns
import os
#解决中文显示问题
mpl.rcParams['font.sans-serif']=['SimHei']
mpl.rcParams['axes.unicode_minus']
def get_stopwords():
#获取停用词的路径
dir_name_path=os.path.join