介绍
jieba“结巴”中文分词:做最好的 Python 中文分词组件。官网如是说,其实实际使用的过程中体验还不错啦,清华thulac做了一个测评,jieba和thulac脱颖而出。
这里简单介绍一下分词,词性标注及关键词提取的使用,目的是为nlp自然语言处理入门学习者的使用。
Show your code
环境:python3、linux、mac、win10皆可用(win10可能面临万恶的gbk编码问题,这一点真的很头疼)
import sys
import jieba
import jieba.analyse
import jieba.posseg as pseg
# 用户自定义字典,没有自定义词典注释了就好
jieba.load_userdict("dict_path")
def word_cu