8 词汇获取
词汇获取的目的:通过考察大型文本语料库中词汇的出现模式,设计一种算法和统计技术来填补现有电子词典的不足,搭配、短语和词汇组合是其中的特殊分类,在词的搭配问题之外还有其他词汇获取的问题:选择倾向性、子范畴框架和语义范畴。
让计算机直接从在线文本中自动学习词汇信息,在一定程度上有效,但是违背了经典的乔姆斯基学派的观点:由于感官刺激贫乏,人类天生具备语言能力。
由于语言的多产性,我们感兴趣的大部分词没有被收录到电子词典中。
统计自然语言处理的一个重要任务就是在传统词典中增加数量信息。词典信息和非词典信息之间没有明显的界限。
几乎所有统计自然语言处理(包括参数估计)都和词汇属性有关,因此很多统计自然语言处理工作都需要进行词汇获取,所有的关于语言的知识都可以在词典中体现出来。
动词子范畴:动词表现的句法含义
附着歧义:例如介词短语附着于前面的名词还是动词
选择倾向:动词语义对象的语义特征,eat
词汇之间的语义相似性
8.1 评价方法
为了方便,我们使用人工的效果参数,混乱度来评价系统的各个组成部分。
在此使用精确率和召回率来评价系统,定义了一个目标集合(就是实际上是正确的)和一个选择集合(系统判定正确的),这两个变量的联合分布可以表示成一个2*2的联立矩阵:
其中tp表示为真正确,tn表示为真错误,这俩表示系统正确做出判断的情况
fp表示的错误选择情况称为假正确,假接收,错误类型2
fn表示的错误选择情况称为假错误,假拒绝,错误类型1
p为选择集(tp+fp),系统判断是正确的
n为非选择集(tn+fn),系统判断是错误的
目标集(tp+fn),实际上正确的
非目标集(tn+fp),实际上是错误的
P 精确度:系统判断选择正确项在全部选择项目中所占的比例 precision = tp / (tp+fp)
R 召回率:系统选择的目标项在全部目标项中所占的比例 recall = tp / (tp+fn)
精确度和召回率通常称反比,需要把这两个统一到一个全面的度量尺度中,F测量,是E测量的变种,F = 1 - E
使用精确度和错误率的优点:
- 准确率数值对于比较小但是我们感兴趣的数字tp,fp和fn不是特别敏感,而精确率和召回率对于这些数字非常敏感。通常可以简单的什么也不选,但是会得到一个非常高的准确率
- 在其他条件相等的情况下,F测量和真正确的数量成正比,而准确率只对错误的数量很敏感、F测量这种倾向和我们的直观感受是一致的,对发现事件感兴趣,甚至返回一些垃圾数据也在所不惜
- 遗漏的目标事件和垃圾事件对于系统性能的影响并不相同,而利用精确率和召回率可以衡量其中的差异