小编学习nlp的起步阶段,今天利用python语言中的jieba包,实现了中文的分词、高频词统计、词性标注。我知道对于原理理解的重要性,迫不及待地把实现的过程记录在博客中,算法原理问题过后进行补充。
1、jieba分词
Jieba提供了三种分词模式:
- 精确模式:视图将句子切分的最精确。
- 全模式:把句子句子中,所有可以成词的词语都扫出来,速度快,但是不能解决歧义的问题。
- 模糊模式:在精确模式的基础上,对长词再次进行切分,适合用于搜索引擎分词或者模糊查询。
import jieba
sent = "我们中出了一个叛徒"
seg_list = jieba.cut(sent,cut_all = False)
print("精确模式:","/".join(seg_list))
#output
精确模式:我们/中出/了/一个/叛徒 #=.=
2、高频词提取
高频词一般是指文档中出现频率较高的且非无用的词。这里解决一下两个问题:
- 对句子实现分词并且统计出现频率。
- 过滤掉频率较高且无用的词语或符号
def