统计自然语言处理基础-第八章 词汇获取(笔记)

8 词汇获取

词汇获取的目的:通过考察大型文本语料库中词汇的出现模式,设计一种算法和统计技术来填补现有电子词典的不足,搭配、短语和词汇组合是其中的特殊分类,在词的搭配问题之外还有其他词汇获取的问题:选择倾向性、子范畴框架和语义范畴。

让计算机直接从在线文本中自动学习词汇信息,在一定程度上有效,但是违背了经典的乔姆斯基学派的观点:由于感官刺激贫乏,人类天生具备语言能力。

由于语言的多产性,我们感兴趣的大部分词没有被收录到电子词典中。

统计自然语言处理的一个重要任务就是在传统词典中增加数量信息。词典信息和非词典信息之间没有明显的界限。

几乎所有统计自然语言处理(包括参数估计)都和词汇属性有关,因此很多统计自然语言处理工作都需要进行词汇获取,所有的关于语言的知识都可以在词典中体现出来。

动词子范畴:动词表现的句法含义

附着歧义:例如介词短语附着于前面的名词还是动词

选择倾向:动词语义对象的语义特征,eat

词汇之间的语义相似性

8.1 评价方法

为了方便,我们使用人工的效果参数,混乱度来评价系统的各个组成部分。

在此使用精确率和召回率来评价系统,定义了一个目标集合(就是实际上是正确的)和一个选择集合(系统判定正确的),这两个变量的联合分布可以表示成一个2*2的联立矩阵:
在这里插入图片描述
在这里插入图片描述
其中tp表示为真正确,tn表示为真错误,这俩表示系统正确做出判断的情况

fp表示的错误选择情况称为假正确,假接收,错误类型2

fn表示的错误选择情况称为假错误,假拒绝,错误类型1

p为选择集(tp+fp),系统判断是正确的

n为非选择集(tn+fn),系统判断是错误的

目标集(tp+fn),实际上正确的

非目标集(tn+fp),实际上是错误的

P 精确度:系统判断选择正确项在全部选择项目中所占的比例 precision = tp / (tp+fp)

R 召回率:系统选择的目标项在全部目标项中所占的比例 recall = tp / (tp+fn)

精确度和召回率通常称反比,需要把这两个统一到一个全面的度量尺度中,F测量,是E测量的变种,F = 1 - E
在这里插入图片描述
使用精确度和错误率的优点:

  1. 准确率数值对于比较小但是我们感兴趣的数字tp,fp和fn不是特别敏感,而精确率和召回率对于这些数字非常敏感。通常可以简单的什么也不选,但是会得到一个非常高的准确率
  2. 在其他条件相等的情况下,F测量和真正确的数量成正比,而准确率只对错误的数量很敏感、F测量这种倾向和我们的直观感受是一致的,对发现事件感兴趣,甚至返回一些垃圾数据也在所不惜
  3. 遗漏的目标事件和垃圾事件对于系统性能的影响并不相同,而利用精确率和召回率可以衡量其中的差异

漏识率:被错误选择的非目标项在非目标集中所占的百分比,本该是错误的现在被系统判断为正确的 fallout = fp / (fp+tn)

当某个系统值产生很少的假正确时,漏识率可以用来评价这个系统构建的困难程度

ROC曲线:不同级别的fallout度量值怎样影响召回率或者敏感性

8.2 动词子范畴

动词可以被划分成不同的句法范畴,也就是动词可以用不同的句法形式来表示自己的语义对象。把句法范畴集合称为子范畴框架,把带有特殊语义论元集的动词看成是一个范畴,这些范畴可以分成好几个子范畴,子范畴使用不同的句法结构来表示他们的语义对象。

但是大部分词典都没有包含子范畴框架的信息,有超过50%的句法分析错误是由于缺少子范畴框架引起的。

Brent提出了学习子范畴框架的算法,实现该算法的系统称为Lerner,假设我们基于一个语料库来判断动词v是否有框架f,Lerner将分两步来做出决策:

  1. 暗示:定义包含词语和句法范畴的正则模式(使用这些正则模式来发现子范畴框架),该正则模式表明某个特定框架的出现有比较高的确定性。确定性可以形式化为错误概率。对于某个特定的暗示,定义了一个错误概率,表示如果在暗示的基础上为这个动词v指定这个框架f,那么错误的可能性有多大。
  2. 假设检验:我们最初的假设框架不适合这个动词,并把它作为零假设H0.如果暗示指示H0错误的概率很高,那么我们拒绝这个假设。定义好暗示后,就可以对语料库进行分析,并且对于任意动词和框架的组合,可以统计出这个框架的暗示和这个动词同现的次数。然后进行零假设,决定是否拒绝这个零假设。

实验评价表明,以精确率作为度量,Lerner系统效果很好。对于大部分子范畴框架,带有特殊框架的动词有接近100%的精确率。Lerner系统的召回率不是很好,47%-100%之间。如果使用动词词性代替动词词次,该系统的性能稍差。

Manning阐述了低召回率的问题,使用标注器,并且在标注器的输出上使用暗示决策,这样会出现一些问题,有了两个错误倾向系统,标注器和暗示决策,他们混合在一起并产生了一个更有错误倾向的系统,但是,在假设检验中这是没有问题的,低可靠性暗示和额外的基于标注器输出的暗示可能会极大的增加可使用暗示的数量,这样会出现更多的动词性具有给定框架的暗示,而且,很多子范畴框架都具有可靠性不高的暗示。使用Manning的方法可以学习到更多的子范畴框架,甚至可以将其应用与只有低可靠性的暗示的框架。

高精确率和低召回率是我们使用假设检验的必然结果,我们仅仅寻找已经被很好证明了的子范畴框架,相反,这也意味着我们不会理会那些出现极少的子范畴框架。

加入动词子范畴框架的先验知识可以用于改善实验的结果

一个基于不完全子范畴化词典的系统将会更好的利用这些语料库,它比直接在语料库上学习更有效,因此效果也会更好

8.3 附着歧义

当分析一个句子的句法结构时,有些短语可以附着于句法树上的两个或者多个节点介词短语附着是一个被广泛研究的附着歧义问题。

基于词典信息的解决介词短语附着歧义的方法,Hindle and Rooth

放到上下文中去考虑,一般来说,词汇的选择的偏向性可以用来解决这类消歧问题;在大部分情况下,利用简单的词汇统计就能确定哪一种附着关系是正确的。这些简单的统计包括基于动词和前置词的同现计数和基于名词和前置词的同现计数,基于这些信息的一个简单模型使用了似然比
在这里插入图片描述
这个模型的缺点是简单的认为其他因素对于确定附着关系都是相等的在句法分析树中存在着一个附着“偏低”的倾向问题。对于介词短语的附着问题,在句法树中偏低的节点是名词短语节点。当我们处理介词短语时,名词短语刚刚被处理完,还没有被忘记,所以很容易会把这个介词短语倾向于附着到名词短语上

当介词短语即可以附着于动词也可是名词时,偏向与句法树中位置较低的节点。

8.3.1 Hindle and Rooth的概率模型

事件空间是由以下条件的子句组成:包含一个及物动词(有名词短语作为宾语的动词),有一个在动词之后的名词短语(宾语名词短语),和一个在名词短语之后的介词短语。

为了减少模型的混乱度,每次只考虑一个介词,为了简化概率模型,不直接以确定的形式来判断介词是否附着于某个动词或者名词,而是给出可能性估计,以概率的形式来描述附着的可能性,把介词附着于动词或者名词看成是独立的不合理,介词短语在名词和动词附着关系上是二值选择的,并不相互独立。独立性假设的优点在于分别计算两个变量的经验估计要比得到他们的联合分布的估计容易

怎样从未标注语料库中估计相关数值:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这个的准确率在80%左右,如果仅仅对兰姆达值超过某个阈值的情况做判断,可以得到更高的精确率,但是召回率较低

8.3.2 介词短语附着的一般评论

词汇倾向性其关键作用

使用模型来解决歧义问题,主要有以下限制

  1. 我们仅仅考虑了前置词和他要附着的名词和动词,有时其他信息也是重要的,例名词前出现形容词最高级很可能是名词短语附着。似然比的优点在于可以把其他的一些特征结合到自己的特征集中
  2. 仅仅考虑了一个介词短语紧随充当宾语的名词短语之后的情况,而这个名词短语修饰前面的名词或者动词。实际上,介词短语附着情况要多的多。
其他附着问题

除了介词短语存在附着歧义还有状语和分词短语以及子句和复合名词

左分支的情况粗略对应于介词短语附着于动词的情况,右分支的情况粗略对应于介词短语附着于名词的情况

可以把应用在介词短语上的方法直接应用于复合名词

有大量的前置词短语表现出了“不确定”的附着关系,已经超出了统计自然语言处理要解决的范畴

8.4 选择倾向

大部分动词更倾向于有特定的论元类型。这个规律就是选择倾向或选择约束,使用“倾向”,而不是“规则”,因为这种倾向在比喻修辞和其他扩展意思中可以被忽略。

用法:

  1. 得到词语的部分意思
  2. 用于排列一个句子可能的句法分析结果

基于选择倾向,在自动语言处理中对一个句子的语义适合度的打分机制比完全理解句子的含义要符合实际,因为选择倾向的语义规律非常强,由于在动词和其论元之间有很强的句法限制,能够很容易的从语料库中获取这个语义限制信息

Resnik提出的选择倾向模型(可以用到任何词类的语义约束中,在这里只考虑名词和直接宾语的情况):

选择倾向强度:度量了动词约束它的直接宾语的强度,被定义为直接宾语的先验分布和我们所求的动词直接宾语的分布之间的相对熵

使用两个假设来简化这个模型:1只考虑直接宾语的中心词2 不处理单独的名词,考虑名词类
在这里插入图片描述
在这里插入图片描述
对于大部分动词来说,关联强度能够准确预测哪一种宾语是典型的,模型的大部分错误是由于模型的消歧形式引起的,模型通过在名词可能的类之间选择最高的关联强度进行消歧,如果某个名词不属于典型宾语类别,但在它的各种含义中存在一个含义使它可以合理地充当宾语,即使这个含义非常罕见,按照关联强度大小我们也把它划归为典型宾语。

也预测了是否有隐式宾语交替问题,或称非确定宾语交替
在这里插入图片描述

8.5 语义相似性

词汇获取的最高目标是词义的获取,自动获得一个新词相对于已知词汇的语义相似性要比获取这个新词的确切意义容易。

  1. 经常使用语义相似性对文本进行一般化,相似性一般化(只考虑最相似的邻近词)和类一般化(和一个词有关联的一类词的特性)
  2. 语义相似性在信息检索中用来做查询扩展
  3. K近邻法分类,我们首先需要一个标有类别属性的训练集,训练集里的元素可以是词汇,类别可以是新闻报道的主题范畴。在K近邻法分类中,根据它的k个近邻可以为一个新的元素指定一个最可能的类别

在某种程度上说,语义相似性是近义词的扩展。通常,语义相似性是指来自于相同语义领域和主题的两个词。如果词汇涉及到的事物在现实世界中很可能同时出现,词汇也是相似的,可能涉及不同的主体,甚至句法范畴都不同。

Miller and Charles 认为可以通过上下文可换性的程度来解释,用一个词在上下文中可以被另外一个词代替的程度来度量语义相似性。

所有的语义相似概念都有歧义问题。

8.5.1 向量空间度量方法

计算语义相似性的两个词可以转换为多维空间的向量形式

文本-词汇矩阵 P

词汇-词汇矩阵 =PP(T 转置)

中心词-修饰词矩阵

还可以考虑这三个矩阵的行间相似性和列间相似性
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

如果使用归一化向量,余弦度量给出的相似性排列和欧式距离给出的一样。

余弦也可以被用来作为概率相似性的度量。

对于某些词对而言,词空间上的余弦是衡量相似性的一种有效方法。但是,由于同现信息并不能反映词序和语法依存关系,所以这种方法并不能反映语法差别。同现信息不能特征化这个词的词义。

向量空间作为一个具有代表性方法的优点:简洁性,在二维或三维空间中很容易形象化向量,认为指向同一方向的向量是相似的,向量空间度量法计算比较简单。

8.5.2 概率度量方法

基于向量空间的度量方法的问题是,除了余弦之外,它们的操作都是基于二值数据的(是或不是)。余弦是向量空间度量法中惟一可以处理数字信息的方法,但它也有自己的问题。余弦的计算需要在欧氏空间中,这是因为余弦被定义为三角形两边长度的比值,所以我们需要度量长度,即欧氏距离。但是,如果我们处理的向量是概率或者计数向量,那么欧氏空间并不是一个很好的选择。而且当计算语义相似性时,概率向量是我们最常用的表示形式。

欧式距离对正常分布的量是合适的,但是不适合应用与概率和计数

需要把计数矩阵中的数据转化为条件概率矩阵,语义相似性的问题就转化为两个概率分布相似性的问题了。
在这里插入图片描述

  1. KL 相对熵:度量了分布q近似于分布p的程度,或者当我们使用分布q代替分布p时,有多少信息会丢失,会有两个 题:相对熵的值为无穷大,相对熵不是对称的
  2. IRad 信息半径:如果我们用两个词的平均分布来表述这两个词,会有多少信息丢失,克服了以上两个问题,对称且值不会无穷大
  3. L1范式 Manhattan范式:可以看成是差异事件的期望比例,也就是,在分布p和q中不同事件的比例,对称的,并且对任意的p和q都有明确的定义

Dagan表明IRad始终好于其他两种方法

向量空间度量概念简洁,并且产生的相似性值可以直接用来一般化文本,但是他们缺乏计算方法的清晰解释

概念非相似性度量在理论上更加严谨,但是需要把非相似性转化为相似性才能用来一般化文本

8.6 统计自然语言处理中词汇统计的作用

词汇资源缺乏的原因:人工建立词汇资源的费用问题,专门的词典编撰者的准确全面,但是费时间+费用

数字信息是人类很难收集的,因此词汇获取中的数字信息不得不通过机器自动完成,甚至手工构建好的也要这些数字特征,很多词汇资源是根据人类的需求而设计的,数字信息越来越受重视,因为计算机无法处理传统词典中解释词条的上下文信息,但是数字信息对于人类来说并不太重要,通过自动方法增大手工资源的数量。

量化词汇信息,这些信息是自动学习得到的,也可能是在词汇资源中已经包含的,,可以使用Zipf规则和其他的评价方法,估计了未见过的词汇和文本中用过的词汇的比例

一半以上的缺失词都是专有名词,另外一半是由表中的其他类型引起的。一些覆盖问题在大一些的词典中就不会遇到了,即使使用一个非常大的词典,语料库中还是会有1%-2%的词次没有被覆盖到,这1-2%的未知词倾向于是文档的最重要部分:在文中刻画的人名或者一个新的科学现象的缩写,所以即使新词只占了文本的很小一部分,对其属性表示也是极为重要的。

词汇获取的下一步:寻找先验知识,这些知识可以约束词汇获取的处理过程,先验知识可以是离散的,也可以是概率的。词汇获取工作在自动学习过程中将会允许简单的先验知识的方便插入和简单的错误纠正。先验知识的一个重要资源就是语言学理论:怎样把理论学知识和从词汇中获取经验结合起来。

目前只是在文本资源上获取词汇,因为内容操作符比从视频或者音频中自动抽取出的特征含有较少的歧义。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
R语言实战笔记第九章介绍了方差分析的内容。方差分析是一种用于比较两个或多个组之间差异的统计。在R语言中,可以使用lm函数进行方差分析的回归拟合。lm函数的基本用是: myfit <- lm(I(Y^(a))~x I(x^2) I(log(x)) var ... [-1],data=dataframe 其中,Y代表因变量,x代表自变量,a代表指数,var代表其他可能对模型有影响的变量。lm函数可以拟合回归模型并提供相关分析结果。 在方差分析中,还需要进行数据诊断,以确保模型的可靠性。其中几个重要的诊断包括异常观测值、离群点和高杠杆值点。异常观测值对于回归分析来说非常重要,可以通过Q-Q图和outlierTest函数来检测。离群点在Q-Q图中表示落在置信区间之外的点,需要删除后重新拟合并再次进行显著性检验。高杠杆值点是指在自变量因子空间中的离群点,可以通过帽子统计量来识别。一般来说,帽子统计量高于均值的2到3倍即可标记为高杠杆值点。 此外,方差分析还需要关注正态性。可以使用car包的qqplot函数绘制Q-Q图,并通过线的位置来判断数据是否服从正态分布。落在置信区间内为优,落在置信区间之外为异常点,需要进行处理。还可以通过绘制学生化残差的直方图和密度图来评估正态性。 综上所述,R语言实战第九章介绍了方差分析及其相关的数据诊断方,包括异常观测值、离群点、高杠杆值点和正态性检验。这些方可以用于分析数据的可靠性和模型的适应性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [R语言实战笔记--第八章 OLS回归分析](https://blog.csdn.net/gdyflxw/article/details/53870535)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值