统计自然语言处理基础学习笔记(5)——词汇获取

由于语言中的新词和旧词的用法不断在变化,以及自然语言的多产性,因此我们经常感兴趣的大部分词的特性并没有被收录到电子词典中。即使今天可以编辑一个覆盖整个语言的词汇,大约一个月之后仍然会发现该词典的不完善,从而不能很好的描述当前的语言特性。因此,统计自然语言处理需要进行词汇获取这一步骤。词汇获取的目的是通过考察大型文本的语料库中词汇的出现模型,设计一种算法和统计技术来填补现有电子词典的不足。简而言之,词汇获取就是在传统词典中增加数量信息。除此之外,由于语言的复杂性,词汇获取不仅仅是添加新词,还面临着下面的挑战:1、选择倾向性——新词的搭配结构倾向于哪一类;2、子范畴框架——新词的受体是什么;3、语义范畴——词典中没有的新词的语义范畴是什么。

词汇获取分为四个部分:1、动词子范畴——动词表现的句法含义;2、附着歧义——解决附着歧义问题;3、选择倾向——动词语义对象的语义特征;4、词汇之间的语义相似性。

1、首先我们介绍词汇获取的评价方法

在信息检索以及机器学习中的评价经常使用精确率和召回率来评价统计自然语言处理模型的工作。其中

精确率被定义为系统选择正确项在全部选择项目所占的比例,即

                                        precision = tp/(tp + fp)

召回率被定义为系统选择的目标项在全部目标项中所占的比例,即

recall = tp/(tp + fn)

其中tp(true positive)真正确和tn(true negative)真错误表示系统做出正确判断的情况, fp(false positive)假接受和fn(false negative)假错误表示系统做出错误判断的情况。其中fp为错误类型II,而fn表示选择失败的情况,为错误类型I。

根据精确率和召回率的定义可以看到,我们在信息评价是系统时需要做到两者的折中,协调好精确率和召回率。为了更好的全面的度量精确率和召回率,还可以使用F测量,计算公式为:

F = 1/( k/P + (1-k)R )

其中P表示精确率,R表示召回率,k表示确定精确率和召回率权重的因子。

在评价学习系统时,我们还可以用准确率和错误率,即准确率 = (tp+fp)/(tp+fp+fn+tn),错误率 = 1-准确率。

在实际的学习系统评价时,都会采用精确率和召回率来评价系统。这里需要解释一下为什么使用精确率和召回率来评价系统? 因此在大部分的框架中,tn的值都非常大,因此会使其他的数据显得微不足道。即采用准确率和错误率来评价时,准确率一般接近为0,错误率接近为1。而采用精确率和召回率评价系统时,其优点有:

1、精确率对于值比较小的数字tp、fp、fn非常敏感;

2、在其他条件相等的情况下,F测量和真正确的数量成正比,而准确率只对错误的数量很敏感;

3、利用精确率和召回率可以比较清楚地衡量出遗漏的目标事件和所谓垃圾事件对于系统性能的影响。

除了使用精确率和召回率来评价系统,还有一个不太常用的评价方法时漏识率,它表示了被错误选择的非目标项在非目标集中所占的百分比,计算公式为

fallout = fp/( fp + tn )

当某个系统中只产生很少的假正确情况时,漏识率可以用来评价这个系统构建的困难程度。

2、动词子范畴

动词作为语句的主干连接的关键部分,并且它总是至少会有一个主语,可以被划分为不同的句法范畴,也就是说,动词可以用不同的句法形式来表示自己的语义对象。同时我们把句法范畴集合称为范畴框架。动词的子范畴框架对于句法分析非常有用,但大部分词典都没有包含子范畴框架的信息,即使在很少几个包含子范畴框架信息的词典中,大部分动词的信息也是不完全的。实际上,超过一半的句法分析错误是由于缺少子范畴框架引起的。

一个机遇不完全子范畴化词典的系统将会更好地利用语料库,它比直接在语料库上学习更加高效,学习效果更好。

3、附着歧义:

由于有些短语可以附着于句法树上地两个或者多个节点,在分析一个句子地句法结构时,会产生歧义结果,因此在自然语言分析过程中不得不确定这些短语地附着关系。附着歧义地结果将会导致句子不止存在一颗句法分析树。如何解决附着歧义地问题呢?

一般来说,词汇的选择偏向性可以用来解决这类消歧问题。同时,通过简单的词汇统计也能大致确定哪一种附着关系是正确的。

简单的词汇统计可以采用比较简单的模型来实现,即最大似然比来建立模型。而通过似然计算的缺点是它简单地认为其他因素对与确定附着关系都是相等的。而词汇的偏向性假设句法分析树中存在一个附着“偏低”的倾向问题。

我们把一个介词附着于一个动词和一个名词的附着关系看成是独立的,尽管实际上他们并不是完全独立的。

4、选择倾向

由于大部分动词更倾向于特定的论元类型,通过确定论元约束和句法限制可以得到目标词汇的意思,即使电子词典中缺少该词汇。选择倾向不仅可以获得一个词汇的意思还可以用于排列一个句子可能的句法分析结果。

由于在选择倾向中的语义规律非常强,而且动词及其论元之间有很强的句法限制,因此从语料库中可以容易获得语义限制信息。基于选择倾向,在自动自然语言处理中对一个句子的语义合适度的打分机制比完全理解句子的含义更加符合实际。

在计算选择倾向时,我们采用两种方法:选择倾向强度、关联强度。

5、语义相似性

语义相似性虽然没有一个直观和清晰的概念,但是语义相似性可以认为是近义词的扩展,是指来自于相同语义领域和主题的两个词。

词汇获取的最高目标时词义的获取。如果我们能够自动获取词义,统计自然语言处理中的许多任务的结果将会有很大的改进。

语义属性获取工作主要集中在语义相似性上。语义相似的词语一般可以认为存在某种相似的语言行为,我们经常使用语义相似性对文本进行一般化处理。

语义相似性不仅可以获取词汇语义属性,还可以在信息检索中用来做查询扩展。此外,还可以用来对词语进行分类,例如KNN分类。

语义相似性的计算方法有:

向量空间度量方法——计算语义相似性的两个词转换为多维空间中的向量形式。

基于向量空间的度量方法的问题是,除了余弦之外,他们的操作都是基于二值数据。余弦是向量空间度量法中惟一可以处理数字信息的方法,但余弦计算必须在欧式空间中,因此计算语义相似性时,概率向量是常用的表示形式。而在欧式空间中概率0.1与0.0的距离和概率为0.9与1.0的距离是一样的,但是两者之间的差别不是简简单的1/10。所以欧式距离对正常分布的量是合适的,而不适合应用与概率和计数。

概率度量方法——计数矩阵很容易转化为条件概率矩阵,那么也很容易算出概率数据。语义相似性的问题可以简单的转化为两个概率分布相似性的问题。概率度量方法一般有三种:相对熵,度量了分布q近似于分布p的程度,或者可以认为是采用分布q代替分布p时,有多少信息会丢失,不过该计算方式会带来一个相似不对称问题;信息半径,用两个词的平均分布来表述这两个词,将会有多少信息丢失;L1范式,计算差异事件的期望比例,即在分布p和分布q中不同事件的比例,该方法是对称的。实际表明,信息半径始终要好于另外两种方法,因此一般情况下最好使用信息半径方法。 

6、词汇获取在统计自然语言处理中的作用

词汇获取之所以重要的主要原因在于语言的内在生产力。自然语言永远是在变化,从而能够适应不断变化的世界,词汇资源必须通过不断升级来和这些变化保持一致。因此,词汇获取成为了统计自然语言处理的一个最活跃的领域。词汇获取的下一步需要做的是,更努力的寻找先验知识,这些知识可以约束词汇获取的处理过程。先验知识可以是离散的,也可以是概率的,词汇获取工作在自动学习过程中将会允许简单的先验知识插入和简单的错误纠正。

现在获取先验知识的主要途径是词典,还有一个重要的资源是语言学理论,将语言学理论充分地利用在统计自然语言处理。

未来词汇获取的途径将不仅仅限制在文本资源上,而会在语音、图像和视频信息的基础上获得词汇。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值