# -*- coding: utf-8 -*-
'''
02 feature_engineering
===分词与词性标注===
==分词基本方法==
基于词典的方法
最大匹配法:利用索引加速,正向/逆向【汉语更有效】/双向最大匹配,最佳匹配(词典中的单词按照他们在文本种出现频次的大小)、联想-回溯法
最大概率法:(1)一个待切分的汉字串可能包含多种分词结果(2)将其中概率最大的那个作为该字串的分词结果.基于独立性假设、一元语法,P(W1) = P(有) * P(意见) * P(分歧)
最短路径法:在词图上选择一条词数最少的路径(好于单向最大匹配)
未登录词识别方法:数字(正则表达式、有限状态转移)/命名实体/形式词、离合词;识别一般方法:规则、概率统计
基于标注的方法
由字构词(组词)
考虑了文字词语出现的频率信息,同时考虑上下文语境
基本步骤:
学习(训练):所有的字根据预定义的特征进行词位特性的学习,获得一个训练模型;
词位标注:对待分串的每个字进行词位标注;
组合:根据词位定义获得最终的分词结果。
学习方法:
支持向量机(SVM)
最大熵(Maximum Entropy)
隐马模型(HMM)
最大熵隐马模型(MEMM)
条件随机场&
05-31
05-31
“相关推荐”对你有帮助么?
-
非常没帮助
-
没帮助
-
一般
-
有帮助
-
非常有帮助
提交