自然语言处理(第12.5课 篇章分析)

一、学习目标

1.认识篇章分析中的问题

2.了解篇章如何表示

3.掌握篇章的分析方法

4.学习篇章关系的应用

二、篇章分析的任务

        以例子来说明的话:

        在第一个句子中,原本句子结尾为红色部分,但模型会输出蓝色部分。在第二个句子中,美伊中的伊应该是伊朗,但模型依旧以为是伊拉克。则就展示了以往模型的两个问题:

        (1)无法捕捉到比较远的文章信息(如第一句中整段在讲“她”,模型却只看到“小狗”)

        (2)过于依赖训练语料库(如第二句,训练语料库有许多美国和伊拉克的句子,而忽视句子讲的是伊朗)

三、篇章的表示

        有两种方法:(1)使用神经网络来表示;(2)语言学篇章表示理论。其中,(1)在第7章已讲过,这里重点讲(2)。

1.话题链与回指

        没啥好说的,直接看定义和例子:

2.修辞结构理论(RST)

        RST是语言学篇章表示理论中的一个经典表示方法,其思想是将原篇章尽可能进行切分成EDU,然后再两两结合,形成更大的EDU,最后合成整个语篇。

        常见的语篇结构如下:

        于是,我们就可以将一个篇章进行分析:

        于是,我们需要解决的任务有两个:(1)如何切分EDU,(2)如何确定EDU的关系。具体如何实现,就是下一节篇章分析的任务。

3.其他的语篇理论

四、篇章分析

        篇章分析所完成有多种,前面所说的两个任务也是其中的两个,其他的还有:

        其中事件共指消解的例子有如下:(既要实现共指,又要消除歧义)

        回到上一节的两个任务,我们将其整合一下:

        其中论元和EDU可以看成是同一种东西,在实际中,我们一般一开始以句子作为一个EDU。再将任务再划分一下,分成4个步骤:

1.锚词识别

        其中锚词识别,是用来分割句子的符号,其中以标点符号为主,还有句子中的“并”,“和”这种词。如下:

        如何识别出锚词,可以用的特征有:

2.论元划分

        经过分析,我们可以发现一些现象:

        两种情况对应锚点是具体的词和标点符号两种情况:

3.论元关系识别

        采用分类的思想。输入的特征分为词法和句法两种,使用的分类器也各种各样。如下:

4.论元标识

        该任务是对论元关系识别任务的加深,是要确定两个论元孰前孰后。例子如下:

        有了以上理论知识,我们可以用神经网络模型来实现这些工作。

五、神经网络实现篇章分析

1.论元划分

        由于锚词识别只是让我们更好的进行论元划分,我们可以直接使用条件随机场(CRFs)来划分论元:

        其中,输出为0是论元一,输出为1是论元二。

2.论元关系识别

        我们要得到的句子间的关系z,而我们能用到的输入特征有:两个句子的所有词的词向量。整体模型样子如下:

        这是一个很特别的模型,因为其结果放在了隐藏层里。这也是DRLM的创新所在。其主体还是一个RNN模型,于是,在n时刻,模型进行的操作是计算隐藏层并计算下一个词的概率

        对计算出下个词的概率的公式进行展开,其包括三部分,之前所有词累计的信息h,上一个词的信息c,偏置项b是:

        当上一个句子结束后,并不是预测下一个句子的第一个词,而是引入一个zt(句子关系),并计算出其概率

        再用上一个句子的信息和得到zt来预测下一个句子

        有了上面的目标函数后,我们就可以确定损失函数

        最后,在预测阶段,可以使用贝叶斯公式来确定句子间到底是什么关系

六、篇章关系的应用

        篇章关系的应用有很多,包括:机器翻译、人机对话、阅读理解、自动摘要等。我们以在机器翻译中为例:

1.传统机器翻译的问题:

于是想到的方法是:

这就是篇章关系能做到的动态调整,举个例子来说:(这是使用篇章关系后的结果)

其使用篇章关系的过程如下:

七、本章小结

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值