概述
词汇获取的一般目的,通过考察大型文本语料库中词汇出现的模式,设计一种算法和统计技术来填补现有电子词典的不足。在自然语言中我们感兴趣的大部分词的特性并没有被收录到电子词典中,自然语言的新词和旧词新用法总是层出不穷,即使我们编辑了现有所有存在的词汇,过几天也会有新的出现,所以词汇获取在自然语言中则显得十分重要。本章包含4个部分:动词子范畴,附着歧义,选择倾向,词汇之间的语义相似性。可以看到之前谈到的词汇搭配和语义消歧都是这个部分的一些特例。
评价方法
这里讲到了一些常用的机器学习中的指标,即精确率(precision),召回率(recall)等概念。这里简单提一下吧,对一个目标做出决策,我们根据对错的划分可以得到一个2x2的联立矩阵,如下图。以及下面的图表示。这里解释一下,其实这些参数有很多算法可以得出不同的指标,重点在于我们考虑的分类问题中,你关注的是什么,比如这里我们有大量的文本,错误的分到错误的概率就很大,所以我们更考虑召回率和准确率,对于正确率(accuracy)来说,我们的TN太大,所以对其他我们感兴趣的数据变得不敏感了。因此这里我们考虑找回和准确率。