目录
中文语音的机器处理
交集型切分歧义:汉字串AJB满足AJ、JB同时为词,此时J称为交集串。
组合型切分歧义:汉字串AB满足A、B、AB同时为词。
规律:一个词汇的出现于其上下文环境中出现的词汇序列存在紧密的关系。
文本中第n个词的出现于其前后n-m到n+m个词有高度相关性,我们把[-m,m]称为窗口范围。
汉语语言学的研究
未登录词识别
大约九成是专有名词,其余为通用新词和专业术语。
在NLP研究中,通常将专有名词和数字、日期等称为命名实体。
概率图模型
信息熵
对平均不确定性的度量。约定0log(1/0) = 0。一般而言,log以2为底,熵的单位是比特。
- H(X)>=0
- H(X)<=log|X|,当且仅当X的所有取值x有P(X=x) = 1/|X|等号成立。
互信息
联合熵
借助联合概率分布对熵的自然推广。
条件熵
利用条件概率分布对熵的延伸。
两个随机变量相互独立 <=> 两者互信息为0.
统计语言模型
计算句子中某种语言模式出现概率的统计模型。
实际应用中一般取用n=3的三元模型。
隐马尔科夫模型
缺点:随着矩阵的增大,计算量将急剧增大。
Viterbi算法
最大熵模型
一个单独的词可以用k种词性,所有词性出现的概率总和需为1。按照最大熵原理,在没有任何约束条件的情况下,尽可能将概率均匀地分配。也可以引入