【AAAI2019】Exploring Answer Stance Detection with Recurrent Conditional Attention

p5 in 2019/12/10

论文名称:Exploring Answer Stance Detection with Recurrent Conditional Attention
… … … :使用循环条件注意力结构探索回答立场检测任务
论文作者:袁建华,赵妍妍,许静芳,秦兵
论文来源:AAAI2019
下载链接:https://wvvw.aaai.org/ojs/index.php/AAAI/article/view/4732
源码链接:https://github.com/surpriseshelf/AnswerStance
参考笔记:https://www.jiqizhixin.com/articles/2019-04-24-17

在这里插入图片描述

Abstract

从社区问答QA对中提取人们对问题的观点立场倾向性是一个有意思的问题,用自动化方法挖掘某一问题下所有回答针对该问题的立场倾向性,能为人们提供合理、整体的参考信息。

  • 以前的方法:立场表达针对的对象(target)要么是实体(entity),要么是声明(claim)。
  • 以前的不足:难以捕获目标的语义和构建依赖于目标的答案。
  • 本文的方法:立场针对的对象是整个问题。
    ---- 循环条件注意力结构(Recurrent Conditional Attention, RCA):
    1)问题句、回答句的建模网络,本文使用基于GRU结构的循环神经网络分别建模问题句和回答句的语义信息;
    2)依赖于问题句信息的回答句表示网络,本文利用注意力机制(Attention)从回答句中提纯与问题句有关的表示,降低不相关词的权重;
    3)通过循环阅读问答对迭代更新真实立场倾向性表示的推敲网络。在循环阅读问题对的过程中,RCA模型交错提炼问题句、回答句语义表示,挖掘问题句-回答句之间的相互依赖关系,逐步推理获得回答对于问题真实的观点倾向情况。

Introduction

立场检测任务的目的是将文本中对某一特定目标的态度归类为赞成、反对或中立。
图1 两类回答立场检测任务示例
在这里插入图片描述

Approach

  • 模型主要包含3个模块,与模型图对应关系如下:
    1)问题句和回答建模网络;
    2)依赖于问题句信息的回答句表示网络;
    3)立场倾向性表示迭代更新网络;

图2 RCA整体架构
在这里插入图片描述

3.1 问题句和回答句建模

给定一个问题句XQ和一个回答句XA,本文首先将其中每一个词转为低维稠密的词嵌入表示,具体地本文使用了一个在百科语料上使用word2vec训练得到的100维词向量。然后我们使用GRU(Gated Recurrent Unit)循环神经网络分别建模问题句和回答句,得到问题句和回答句中每个词在上下文中的特征表示。对于给定的一句话X={x1,x2,…,xt,…,xT},在时刻t,GRU按如下公式更新其状态:
在这里插入图片描述
本文使用双向GRU兼顾上下文,对于句子中的第 i 个词,我们将双向GRU的隐层输出进行拼接,用hiQ表示问题句中的词的双向隐层表示,用hiA表示回答句中的词的双向隐层表示。

3.2 Conditional Attention 条件注意力网络

显而易见,判别最终的立场应该同时考虑回答句和问题句的内容,需要利用二者的互相关系,发掘文本中与立场倾向相关的语义内容。下面介绍如何从问题句和回答句的表示中,构建立场倾向性的特征表示。
我们假定,模型在阅读问答对前不持有立场,即初始立场s0特征表示为0。

3.2.1 Question Attention 问题句注意力网络

首先,CA模块阅读问题句内容。由于问题句中不同词对于理解问题句的语义重要性不同,像“了”、“的”、“呢”、“怎样”就不如“德国队”、“牛奶”这些词在本任务中来得重要,所以CA模块利用注意机制来筛选问题句对于立场分析比较重要的词,得到立场相关的问题句表示向量。具体地,我们使用已经累积的立场特征向量st-1去attend问题句,得到问题句:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
其中atiQ是本次阅读问题句得到的第i个词的权重归一化结果。问题句的表示Q~t是问题句所有词隐层向量的加权平均。

3.2.2 Answer Attention 回答句注意力网络

同样地,回答句中不同词对于判断其立场倾向的贡献也存在差异。我们用类似的方法有侧重地学习回答句的表示。这里,CA模块先使用新的问题句信息Q~t更新立场状态向量st-1,得到临时的立场表示st*
在这里插入图片描述
因为st*中融合了最新获取的问题句语义,接着CA模块通过Attention机制来构建考虑问题句信息的回答句表示。
在这里插入图片描述在这里插入图片描述
其中atiA是本次阅读回答句得到的第 i 个词的权重归一化结果。回答句的表示A~t是回答句所有词隐层向量的加权平均。

3.3 Recurrent Stance Polishing 立场表示迭代更新网络

显然,最终的立场类别直接依赖于最新的回答句内容,我们需要将A~t融入我们的立场状态st*。为此,我们应用另一步GRU更新:
在这里插入图片描述
到此为止,我们完成了RCA模型对问答对的一次阅读过程。注意,这里的一次阅读过程对应两个GRU时刻更新。
但对于语义较为复杂的问题对,只对问答对进行一次阅读往往难以正确推断其立场倾向性。借鉴前人的工作,我们重复上述阅读过程k次。这里,我们根据实验结果将k设为3。
在多步阅读过程中,立场状态向量st作为桥梁,构建了间接依赖于回答句的问题句表示和间接依赖问题句的回答句表示,挖掘了立场分类时问答对之间的依赖关系,这样的交互模式使得RCA模型能从问答对中逐步推理出真实立场倾向情况。

Experiments and Results

数据集: 从百度知道、搜狗问问、明医等网站爬取、清洗并标注数据,最终得到的13591条问答对语料,语料主要涉及怀孕、食品、安全、疾病等话题。语料的统计信息如下表:
表1 社区问答中带标注的回答立场数据统计
在这里插入图片描述
评估指标: 宏平均、微平均、Accuracy
基准模型: 词袋模型、双向LSTM模型、CNN模型、TAN(IJCAI2017)、BiCond(EMNLP2016)、AoA(ACL2017)、RAM(EMNLP2017)
表2 测试集上不同立场检测模型的性能比较
在这里插入图片描述
表3 RCA模型在测试集上的消融测试。呈现宏观和微观平均F1分数。
在这里插入图片描述

References

  • Augenstein,I.;Rockt¨aschel,T.;Vlachos,A.;andBontcheva, K. 2016. Stance detection with bidirectional conditional encoding.In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, 876–885.
  • Bahdanau, D.; Cho, K.; and Bengio, Y. 2014. Neural Machine Translation by Jointly Learning to Align and Translate. ArXiv e-prints.
  • Bhatt, G.; Sharma, A.; Sharma, S.; Nagpal, A.; Raman, B.; andMittal,A. 2018. Combiningneural,statisticalandexternal features for fake news stance identification. In Companion Proceedings of the The Web Conference 2018, WWW ’18, 1353–1357. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee.
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值