统计自然语言处理（词汇获取）

最新推荐文章于 2018-11-01 20:48:46 发布

continueOo

最新推荐文章于 2018-11-01 20:48:46 发布

阅读量1.4k

点赞数

分类专栏：自然语言处理文章标签：自然语言处理

本文链接：https://blog.csdn.net/continueOo/article/details/73369227

版权

本文介绍了统计自然语言处理中词汇获取的重要性，包括动词子范畴、附着歧义的处理方法。动词子范畴研究动词的固定搭配，而附着歧义解决句子中短语的多种解析可能性。评价方法如精确率和召回率在自然语言处理分类任务中起到关键作用。通过对词频的统计和启发式算法，可以提高句法分析的准确性。

摘要由CSDN通过智能技术生成

概述

词汇获取的一般目的，通过考察大型文本语料库中词汇出现的模式，设计一种算法和统计技术来填补现有电子词典的不足。在自然语言中我们感兴趣的大部分词的特性并没有被收录到电子词典中，自然语言的新词和旧词新用法总是层出不穷，即使我们编辑了现有所有存在的词汇，过几天也会有新的出现，所以词汇获取在自然语言中则显得十分重要。本章包含４个部分：动词子范畴，附着歧义，选择倾向，词汇之间的语义相似性。可以看到之前谈到的词汇搭配和语义消歧都是这个部分的一些特例。

评价方法

这里讲到了一些常用的机器学习中的指标，即精确率（ｐｒｅｃｉｓｉｏｎ）,召回率（ｒｅｃａｌｌ）等概念。这里简单提一下吧，对一个目标做出决策，我们根据对错的划分可以得到一个２ｘ２的联立矩阵，如下图。以及下面的图表示。这里解释一下，其实这些参数有很多算法可以得出不同的指标，重点在于我们考虑的分类问题中，你关注的是什么，比如这里我们有大量的文本，错误的分到错误的概率就很大，所以我们更考虑召回率和准确率，对于正确率（accuracy）来说，我们的ＴＮ太大，所以对其他我们感兴趣的数据变得不敏感了。因此这里我们考虑找回和准确率。