自然语言处理（第12.5课篇章分析）

komjay

已于 2023-12-02 19:03:11 修改

阅读量167

点赞数

分类专栏： NLP 文章标签：自然语言处理人工智能

于 2023-11-29 16:25:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/komjay/article/details/134689583

版权

NLP 专栏收录该内容

18 篇文章 8 订阅

订阅专栏

一、学习目标

1.认识篇章分析中的问题

2.了解篇章如何表示

3.掌握篇章的分析方法

4.学习篇章关系的应用

二、篇章分析的任务

以例子来说明的话：

在第一个句子中，原本句子结尾为红色部分，但模型会输出蓝色部分。在第二个句子中，美伊中的伊应该是伊朗，但模型依旧以为是伊拉克。则就展示了以往模型的两个问题：

（1）无法捕捉到比较远的文章信息（如第一句中整段在讲“她”，模型却只看到“小狗”）

（2）过于依赖训练语料库（如第二句，训练语料库有许多美国和伊拉克的句子，而忽视句子讲的是伊朗）

三、篇章的表示

有两种方法：（1）使用神经网络来表示；（2）语言学篇章表示理论。其中，（1）在第7章已讲过，这里重点讲（2）。

1.话题链与回指

没啥好说的，直接看定义和例子：

2.修辞结构理论（RST）

RST是语言学篇章表示理论中的一个经典表示方法，其思想是将原篇章尽可能进行切分成EDU，然后再两两结合，形成更大的EDU，最后合成整个语篇。

常见的语篇结构如下：

于是，我们就可以将一个篇章进行分析：

于是，我们需要解决的任务有两个：（1）如何切分EDU，（2）如何确定EDU的关系。具体如何实现，就是下一节篇章分析的任务。

3.其他的语篇理论

四、篇章分析

篇章分析所完成有多种，前面所说的两个任务也是其中的两个，其他的还有：

其中事件共指消解的例子有如下：（既要实现共指，又要消除歧义）

回到上一节的两个任务，我们将其整合一下：

其中论元和EDU可以看成是同一种东西，在实际中，我们一般一开始以句子作为一个EDU。再将任务再划分一下，分成4个步骤：

1.锚词识别

其中锚词识别，是用来分割句子的符号，其中以标点符号为主，还有句子中的“并”，“和”这种词。如下：

如何识别出锚词，可以用的特征有：

2.论元划分

经过分析，我们可以发现一些现象：

两种情况对应锚点是具体的词和标点符号两种情况：

3.论元关系识别

采用分类的思想。输入的特征分为词法和句法两种，使用的分类器也各种各样。如下：

4.论元标识

该任务是对论元关系识别任务的加深，是要确定两个论元孰前孰后。例子如下：

有了以上理论知识，我们可以用神经网络模型来实现这些工作。

五、神经网络实现篇章分析

1.论元划分

由于锚词识别只是让我们更好的进行论元划分，我们可以直接使用条件随机场（CRFs）来划分论元：

其中，输出为0是论元一，输出为1是论元二。

2.论元关系识别

我们要得到的句子间的关系z，而我们能用到的输入特征有：两个句子的所有词的词向量。整体模型样子如下：

这是一个很特别的模型，因为其结果放在了隐藏层里。这也是DRLM的创新所在。其主体还是一个RNN模型，于是，在n时刻，模型进行的操作是计算隐藏层并计算下一个词的概率：

对计算出下个词的概率的公式进行展开，其包括三部分，之前所有词累计的信息h，上一个词的信息c，偏置项b是：

当上一个句子结束后，并不是预测下一个句子的第一个词，而是引入一个zt（句子关系），并计算出其概率：

再用上一个句子的信息和得到zt来预测下一个句子：

有了上面的目标函数后，我们就可以确定损失函数：

最后，在预测阶段，可以使用贝叶斯公式来确定句子间到底是什么关系：

六、篇章关系的应用

篇章关系的应用有很多，包括：机器翻译、人机对话、阅读理解、自动摘要等。我们以在机器翻译中为例：

1.传统机器翻译的问题：

于是想到的方法是：

这就是篇章关系能做到的动态调整，举个例子来说：（这是使用篇章关系后的结果）

其使用篇章关系的过程如下：

七、本章小结

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理（第12.5课篇章分析）

RST是语言学篇章表示理论中的一个经典表示方法，其思想是将原篇章尽可能进行切分成EDU，然后再两两结合，形成更大的EDU，最后合成整个语篇。于是，我们需要解决的任务有两个：（1）如何切分EDU，（2）如何确定EDU的关系。我们要得到的句子间的关系z，而我们能用到的输入特征有：两个句子的所有词的词向量。其中锚词识别，是用来分割句子的符号，其中以标点符号为主，还有句子中的“并”，“和”这种词。（2）过于依赖训练语料库（如第二句，训练语料库有许多美国和伊拉克的句子，而忽视句子讲的是伊朗）
复制链接

扫一扫

专栏目录

komjay CSDN认证博客专家 CSDN认证企业博客

码龄5年

54: 原创

117万+: 周排名

5万+: 总排名

2万+: 访问

: 等级

779: 积分

188: 粉丝

236: 获赞

20: 评论

321: 收藏

私信

关注

热门文章

分类专栏

最新评论

第三章混合推荐系统和推荐系统评价标准
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
算法中的最优化方法与实现（第2课线性规划）
CSDN-Ada助手: 恭喜作者继续分享关于算法最优化方法与实现的知识，这对于学习算法的读者来说是非常宝贵的资源。希望作者在未来的创作中能够深入探讨一些实际案例，结合具体的应用场景来解释算法的实现过程，这样读者们会更容易理解和应用所学到的知识。期待作者的下一篇文章！
自然语言处理(第17课文本分类和聚类)
eeet9: 作者您好，您也是国科大学生吗
机器学习（第2章贝叶斯理论与应用）
CSDN-Ada助手: 非常感谢您分享这篇关于机器学习中贝叶斯理论与应用的博客！您的持续创作让我们受益良多。希望您能继续深入探讨机器学习领域的其他重要理论和应用，比如深度学习或者神经网络等，这些内容也将对我们有很大的帮助。期待您的下一篇精彩内容！
自然语言处理(第3课形式语言与自动机)
CSDN-Ada助手: 非常感谢作者的辛勤劳动，第10篇博客内容丰富，尤其是关于自然语言处理中形式语言与自动机的讲解让我受益匪浅。希望作者能够继续坚持创作，不断分享自己的学习心得和见解。下一步建议可以尝试结合实际案例或者应用场景，让读者更加直观地理解相关概念。期待作者更多精彩的文章，谢谢！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。