在上一篇博文中已简单介绍了自然语言处理未登录词中新词提取的实现,现在来介绍一下新词提取的原理。
未登录词-新词提取的流程如下图所示:
对于新词提取的原理,主要介绍以下两个方面:
1、利用词频选取候选词语,即种子词语
2、判别候选词语的内部结合紧密程度和外部边界独立性
下面开始详细介绍
一、利用词频选取候选词语,即种子词语
利用N-Gram对语料进行切分,得到词语片段,统计词语片段出现的频数。设定一个阈值,只有当词语片段出现的频数超过这个阈值时,才认为这个词语片段构成一个候选词语。这种词频统计方法简单有效,但在提取结果中会包含很多不合语法和语义的词语片段,从而会产生大量的噪声,从而引起准确率不高的问题。因此,需要利用其他统计量对候选词语进行筛选。
二、判别候选词语的内部结合紧密程度和外部边界独立性
我们选取的统计量分别从词语内部的结合紧密程度和词语外部的边界度量入手,具体筛选方法为互信息和左右熵这两个统计量的计算和阈值的设定。
1、内部结合紧密程度的判定方法
从统计学的视角来看,词语内部的结合紧密程度依赖于词语的共现频次。如果某些相互成搭配的词语片段反复大量出现,即它们的共现频次越高,那么词语片段的结合紧密程度越强。但在实际应用中会发现,词语片段共现频次高可能不是一个词,而是多个词构成的词组。比如,在人人网用户状态语料中,“的电影”出现了389次,而“电影院”只出现了175次,然而我们却更倾向于把“电影院”当作一个词语。为了证明这种倾向,需要分别计算“的电影”和“电影院”两个词语片段的内部结合紧密程度,并比较它们的大小。
这里利用互信息来判断词语内部结合紧密程度。互信息是指两个事件同时发生的概率函数,体现了两个变量之间的相互依赖程度:
因此,我们利用人人网用户状态语料分别对“的电影”和“电影院”的互信息进行计算。
在2400万字的数据中,“电影”出现的次数为2774次,出现的概率为
“院”字出现的次数为4797次,出现的概率为