可以使用jieba进行文本预处理的工作有
- 分词:中文必须进行分词
- 词性标注:将词进行词性标注
- 自定义词典:专业领域的词汇
- 删除停用词,提取关键词
- 准备语料库:中文主流的语料库 1)wiki百科中文语料库 2)搜狗中文语料库2012-6~7
一、jieba分词
import jieba
sent = '中文分词是文本处理不可或缺的一步'
seg_list = jieba.cut(sent, cut_all = True)
print('全模式', '/'.join(seg_list))
seg_list = jieba.cut(sent, cut_all = False)
print('精确模式', '/'.join(seg_list))
# 最常见
seg_list = jieba.cut(sent)
print('默认精确模式', '/'.join(seg_list))
seg_list = jieba.cut_for_search(sent)
print('搜索引擎模式','/'.join(seg_list))
二、词性标注
词性参考 https://mp.weixin.qq.com/s/kTWqxKdCpnAl8LiE5d_b3Q
import jieba.posseg as png
sent = '