文本挖掘理论（二）

Seal_Wings

于 2019-12-03 23:27:55 发布

阅读量361

点赞数

分类专栏：文本挖掘

本文链接：https://blog.csdn.net/Seal_Wings/article/details/103378631

版权

# -*- coding: utf-8 -*-
'''
02 feature_engineering

===分词与词性标注===

==分词基本方法==
基于词典的方法
	最大匹配法：利用索引加速，正向/逆向【汉语更有效】/双向最大匹配，最佳匹配（词典中的单词按照他们在文本种出现频次的大小）、联想-回溯法
	最大概率法：（1）一个待切分的汉字串可能包含多种分词结果（2）将其中概率最大的那个作为该字串的分词结果.基于独立性假设、一元语法，P(W1) = P(有) * P(意见) * P(分歧)
	最短路径法：在词图上选择一条词数最少的路径（好于单向最大匹配）
	未登录词识别方法：数字（正则表达式、有限状态转移）/命名实体/形式词、离合词；识别一般方法：规则、概率统计
基于标注的方法
	由字构词(组词)
	考虑了文字词语出现的频率信息，同时考虑上下文语境
	基本步骤：
		学习（训练）：所有的字根据预定义的特征进行词位特性的学习，获得一个训练模型；
		词位标注：对待分串的每个字进行词位标注；
		组合：根据词位定义获得最终的分词结果。
	学习方法：
		支持向量机（SVM）
		最大熵（Maximum Entropy）
		隐马模型（HMM）
		最大熵隐马模型（MEMM）
		条件随机场&

最低0.47元/天解锁文章

Seal_Wings

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
文本挖掘理论（二）

# -*- coding: utf-8 -*-'''02 feature_engineering===分词与词性标注=====分词基本方法==基于词典的方法最大匹配法：利用索引加速，正向/逆向【汉语更有效】/双向最大匹配，最佳匹配（词典中的单词按照他们在文本种出现频次的大小）、联想-回溯法最大概率法：（1）一个待切分的汉字串可能包含多种分词结果（2）将其中概率最大的那个作为该...
复制链接

扫一扫