Python学习（二）利用jieba分词及去停用词

高端客户

于 2017-07-17 10:48:23 发布

阅读量1.8w

点赞数 12

CC 4.0 BY-SA版权

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/u013240519/article/details/75220337

Python 专栏收录该内容

2 篇文章

订阅专栏

本文介绍了使用jieba进行中文文本的分词处理方法，包括加载停用词表、导入自定义词典、读取文本文件等内容。通过精确模式进行分词，并去除停用词及特定类型的词汇。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#encoding=utf-8
import sys
sys.path.append("../") 
import jieba  
import jieba.posseg as pseg
from jieba import analyse
#加载停用词表
stop = [line.strip().decode('utf-8') for line in open('stop_words.txt').readlines() ]
#导入自定义词典  
jieba.load_userdict("userdict.txt")

# 读取文本
f = open('example.txt')
s = f.read()
#s="朝鲜半岛西北部古元古代高温变质-深熔作用:宏观和微观岩石学以及锆石U-Pb年代学制约"

#分词
segs = jieba.cut(s, cut_all=False)
#print u"[精确模式]: ", "  ".join(segs)

#分词并标注词性
segs = pseg.cut(s)


final = ''
for seg ，flag in segs:
    #去停用词
    if seg not in stop:
       #去数词和去字符串
       if flag !='m' and flag !='x':
            #输出分词
            final +=' '+ seg 
            #输出分词带词性
            # final +=' '+ seg+'/'+flag
print final