jieba中文分词的实现（含去除停用词，注释详尽，欢迎批评指导）

最新推荐文章于 2025-03-09 10:46:14 发布

hard_coding_wang

最新推荐文章于 2025-03-09 10:46:14 发布

阅读量1.1w

点赞数 9

分类专栏： python 文章标签： jieba python 中文分词停用词

本文链接：https://blog.csdn.net/qq_24732415/article/details/107093890

版权

#一般需要导入该库。导入方法，打开cmd命令窗口或者anaconda prompt：
#pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba(最后一个参数是包名)
#如果想安装对应版本的包，只需在包名后面加“==版本号”即可
import jieba

#分词
def cut_word(Test):
    # jieba 默认启用了HMM（隐马尔科夫模型）进行中文分词
    seg_list = jieba.cut(Test,cut_all=True)  # 分词

    #返回一个以分隔符'/'连接各个元素后生成的字符串
    line = "/".join(seg_list)
    word = out_stopword(line)
    #print(line)
    #列出关键字
    print("\n关键字：\n"+word)

#去除停用词
def out_stopword(seg):
    #打开写入关键词的文件
    keyword = open('D:\keyword.txt', 'w+', encoding='utf-8')
    print("去停用词：\n")
    wordlist = []

    #获取停用词表
    #开源网站GitHub上有整理好的停用词表，可以下载使用
    #goto456/stopwords: 中文常用停用词表（哈工大停用词表、百度停用词表等）——https://github.com/goto456/stopwords
    #停用词文本C:\Users\Administrator\hit_stopwords.txt
    stop = open('D:\hit_stopwords.txt', 'r+',