统计自然语言处理(词汇获取)

本文介绍了统计自然语言处理中词汇获取的重要性,包括动词子范畴、附着歧义的处理方法。动词子范畴研究动词的固定搭配,而附着歧义解决句子中短语的多种解析可能性。评价方法如精确率和召回率在自然语言处理分类任务中起到关键作用。通过对词频的统计和启发式算法,可以提高句法分析的准确性。
摘要由CSDN通过智能技术生成

概述

词汇获取的一般目的,通过考察大型文本语料库中词汇出现的模式,设计一种算法和统计技术来填补现有电子词典的不足。在自然语言中我们感兴趣的大部分词的特性并没有被收录到电子词典中,自然语言的新词和旧词新用法总是层出不穷,即使我们编辑了现有所有存在的词汇,过几天也会有新的出现,所以词汇获取在自然语言中则显得十分重要。本章包含4个部分:动词子范畴,附着歧义,选择倾向,词汇之间的语义相似性。可以看到之前谈到的词汇搭配和语义消歧都是这个部分的一些特例。

评价方法

这里讲到了一些常用的机器学习中的指标,即精确率(precision),召回率(recall)等概念。这里简单提一下吧,对一个目标做出决策,我们根据对错的划分可以得到一个2x2的联立矩阵,如下图。以及下面的图表示。这里解释一下,其实这些参数有很多算法可以得出不同的指标,重点在于我们考虑的分类问题中,你关注的是什么,比如这里我们有大量的文本,错误的分到错误的概率就很大,所以我们更考虑召回率和准确率,对于正确率(accuracy)来说,我们的TN太大,所以对其他我们感兴趣的数据变得不敏感了。因此这里我们考虑找回和准确率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值