形态分析、汉语分词与词性标注
概述
- 词:自然语言中能够独立运用的最小单位,NLP的基本单位
- 不同语言在词法层面需要完成不同的分析任务
- 曲折语:词的形态变化表示语法关系——形态分析、形态还原
- 分析语:词语切分
- 黏着语:词语切分 + 形态还原
- 词性(词类,Part-of-Speech,POS):词的语法分类
- 具有相同句法功能、能够出现在同样组合位置中的词聚合在一起的范畴
- 汉语:分为实词和虚词两大类
- 词性标注:系统自动对(句子中的、受到上下文约束的)词汇标注词性标记
英语形态分析
- 基本任务
- 单词识别,缩略词的整词判定
- 词典 + 规则
- 形态还原
- 有规律变化的单词的形态还原——逆规则还原
- 动词、名词、形容词、副词不规则变化的形态还原——词表还原
- 表示年代、 时间、百分数、货币、序数词的数字形态还原——逆规则还原
- 合成词形态还原——拆分、逆规则还原
- 单词识别,缩略词的整词判定
- 形态分析一般方法
- 查字典,确定原型
- 根据相应规则还原处理,查找字典寻找原型,否则按照未登录词处理
- 进入未登录词处理
汉语自动分词
概要
- 重要性
- 汉语句子分析的基础
- 分词的广泛应用(词频统计、词典编纂、文章风格研究)
- 文献处理以词语为文本特征
- 对文本校对、同音字、多音字识别以及简繁体转换有重要作用
- 主要问题
- 分词归还规范
- 单字词 vs. 词素?
- 词 vs. 短语?
- 歧义切分字段处理
- 交集型歧义P19
- 链长:一个交集型切分歧义所拥有的交集串的集合称为交集串链,其中字的个数为链长
- 组合型歧义P22
- 交集型歧义P19
- 未登录词的识别
- 人名、地名、组织机构名
- 新出现的词汇、术语、个别俗语
- 分词归还规范
- 基本原则
- 语义上无法由组合成份直接相加而得到的字串应该合并为一个分词单位(合并原则)
- 语类无法由组合成分直接得到的字串应该合并为一个分词单位(合并原则)
- 语法功能不符合组合规律
- 内部结构不符合语法规律
- 辅助原则:操作性原则
- 有明显分隔符标记的应该切分之(切分原则)
- 附着性语素与前后词合并为一个单位(合并原则)
- 使用频率高或贡献频率高的子串尽量合并(合并原则)
- 双音节加单音节的偏正式名词尽量合并(合并原则)
- 双音节结构的偏正式动词应尽量合并(合并原则)
- 内部结构复杂、合并后过于冗长的词尽量切分(切分原则)
- 含接尾词
- 动词带双音节结果补语
- ……P30
性能评价方法
- 测试方法
- 封闭测试 vs. 开放测试
- 专项测试 vs. 总体测试
- 评价指标
- 正确率:切分结果中的正确结果总数
- 召回率:切分正确结果占正确结果总数
- R O O V R_{OOV} ROOV集外词召回率
- R I V R_{IV} RIV集内词召回率
- F值: F = ( β 2 + 1 ) P R β 2 P + R F = \frac {(\beta^2 + 1) P R}{\beta^2 P + R} F=β2P+R(β2+1)PR
- F-1值: β \beta β取1的F值
- 自动分词方法
- 有词典切分 vs. 无词典切分
- 基于规则的方法 vs. 基于统计的方法
- 最大匹配法
- 有词典切分,又称机械切分法
- 正向最大匹配方法
- 给定字串 S = c 1 … c n S=c_1 \dots c_n S=c1…cn,某一词 w i = c 1 … c m w_i = c_1 \dots c_m wi=c1…cm, m m m为词典中最长词的字数
- 算法P41
- 逆向最大匹配方法(准确率略高)
- 从尾部开始贪婪匹配
- 双向最大匹配算法
- 同时向中间贪婪匹配
- 优点:实现简单,不需要词法等资源
- 弱点:歧义消解能力差、正确率不高
- 最短路径法
- 有词典切分
- 待切分字串 S S S,建立一个节点数为 n + 1 n + 1 n+1的DAG G G G,个节点对应编号为 v 0 , … , v n v_0, \dots, v_n v0,…,vn,节点间的弧对应每个字,如果两个字可组成字典中的词,增加一个跨点弧对应这个词,目标寻找最短路径
- 求最短路径:贪心法或简单扩展法
- 算法P45
- 存在一些例外
- 优点:切分原则符合汉语自身规律,需要的语言资源不多(词典)
- 弱点:对歧义字段难以区分,字串长度较大时难度越大
- 基于语言模型的分词方法
- 无词典切分
- 对待切分句子 S S S, W W W为一种可行切分
- W ∗ = arg max W p ( W ) P ( S ∣ W ) W^\ast = \arg \max_W p(W) P(S|W) W∗=argmaxWp(W)P(S∣W)
- 前者使用语言模型计算,后者使用生成模型计算
- 优点:训练语料足够大时准确率较高
- 弱点:依赖于训练语料规模和质量,计算量大
- 基于HMM的分词方法
- S ^ W = arg max S W p ( S W ∣ μ ) \widehat S_W = \arg \max_{S_W} p(S_W | \mu) S W=argmaxSWp(SW∣μ)
- 切分序列视为输出序列,词性序列视为状态序列
- 由字构词(字标注)分词方法
- 马尔可夫随机场
- 四个词位标记:B、M、E、S
- 优点:能够平衡看待词表词和未登录词,由统一的字标注过程实现
- 弱点:对集内词处理能力不如基于语言模型的分词方法(后者对词内字的互信息更加敏感)
- 生成式方法与区分式方法的结合
- 生成式——n-gram
- 给定观察 o o o,选择模型 q q q,最大化 p ( O ∣ q ) p(O | q) p(O∣q)
- 能够很好处理数据不完整的情形
- 但是计算过程比较复杂
- 区分式——条件随机场
- 有限样本对后验概率 p ( q ∣ O ) p(q | O) p(q∣O)进行建模
- 比较容易学习
- 存在黑盒效应
- 结合方法1:待切分字串每个字用
[
c
,
t
]
i
[c, t]_i
[c,t]i(字,字标注)替代,作为一个统计基元,使用
n
n
n-gram模型选择全局最优
- p ( [ c , t ] 1 n ) = ∏ i p ( [ c , t ] i ∣ [ c , t ] i − k i − 1 ) p([c, t]_1^n) = \prod_i p([c, t]_i | [c, t]_{i - k}^{i - 1}) p([c,t]1n)=∏ip([c,t]i∣[c,t]i−ki−1)
- 优势:充分考虑了相邻字之间的依存关系,对集内词有更好的鲁棒性
- 弱点:难以利用后续上下文信息
- 结合方法2:插值
- score ( t k ) = α log ( p ( [ c , t ] i ∣ [ c , t ] i − k i − 1 ) ) + ( 1 − α ) log ( p ( t k ∣ c k − 2 k + 2 ) ) \operatorname{score}(t_k) = \alpha \log(p([c, t]_i | [c, t]_{i - k}^{i - 1})) + (1 - \alpha) \log (p(t_k | c_{k - 2}^{k + 2})) score(tk)=αlog(p([c,t]i∣[c,t]i−ki−1))+(1−α)log(p(tk∣ck−2k+2))
- 生成式——n-gram
未登录词识别
- 命名实体
- 人名、地名、组织机构名、数字、货币、日期
- 存在一定的规律
- 其他新词
- 专业术语、新的普通词汇
- 中文姓名处理
- 难点
- 用字广泛而松散,规律不明显
- 姓氏、名字可以特指某一类人
- 部分用字可以视为普通用字
- 缺乏可利用的启发标记
- 识别方法
- 姓名库匹配
- 计算潜在姓名的概率估值和相应姓氏的姓名阈值,利用评价函数和修饰规则进行筛选
- 计算概率值,对假设姓名 X m 1 m 2 X m_1m_2 Xm1m2,利用频率计算概率 p ( n a m e ) = F ( X ) F ( m 1 ) F ( m 2 ) p(name) = F(X) F(m_1) F(m_2) p(name)=F(X)F(m1)F(m2)
- 确定阈值 T m i n ( X ) = F ( X ) min { F ( m 1 ) F ( m 2 ) } T_{min}(X) = F(X) \min \{F(m_1) F(m_2)\} Tmin(X)=F(X)min{F(m1)F(m2)}
- 修饰规则:姓名前由数字或者“.”的距离小于2个字符,否定此姓名
- 确定边界:左界规则(称谓)、右界规则(称谓、界动词)
- 消除重叠、矛盾的候选
- 难点
- 中文地名识别方法
- 困难
- 数量大
- 规律差
- 资源
- 地名库
- 识别规则库
- 基本方法
- 统计模型、确定阈值
- 地名初筛
- 利用上下文排除不可能的候选
- 利用规则进一步确定地名
- 困难
- 中文组织机构名识别
- 构成
- 词法角度:偏正式符合词,{ 名词 | 形容词 | 数量词 | 动词 } + 名词
- 句法角度:定语 + 名词性中心语
- 中心语:机构称呼词
- 识别方法
- 找到机构称呼此
- 按照相应规则向前逐个检查,直到发现非法词
- 构成合法,记录之
- 统计模型确定
- 构成
- 基于NN的NER方法
- 视NER为序列标注问题
- LSTM+CRF
- CRF依赖窗口,RNN可以处理长距离
现状和未来
- 存在的问题
- 模型依赖训练样本
- 样本主要在新闻领域,实际应用(对话、专门领域)难适应
词性标注
- 面临的问题
- 消除词性兼类歧义
- 汉语中,形同音不同,同形、同音但是意义不相干,典型意义的兼类词情况比较多
- 确定原则
- 标准性:普遍认可
- 兼容性:与已有资源标记尽量一致,或可转换
- 可扩展性:可扩充和修改
- 标注方法
- 基于规则(FA)的词性标注放啊
- 基于统计模型的词性标注方法
- 规则和统计结合的方法
- 基于NN的词性标注方法
- 评价指标:准确率
- 基于规则的方法
- 手工编写消歧规则
- 非兼类词典
- 兼类词典
- 构建识别规则
- 根据词语的结构建立词性标注规则
- 手工编写消歧规则
- 基于HMM的词性标注方法
- 最优状态序列——Viterbi
- 基于错误驱动的机器学习方法
- 赋值——预测——比对——调整参数