NAACL2021 | 苏大&阿里提出:一种统一的基于跨度的意见挖掘方法

每天给你送来NLP技术干货!


论文: A Unified Span-Based Approach for Opinion Mining with Syntactic Constituents

录取:NAACL2021

链接:https://aclanthology.org/2021.naacl-main.144.pdf

提取摘要

细粒度意见挖掘Fine-grained opinion mining (OM)任务简而言之就是为了解决:

谁对谁表达了什么观点
Who expressed what opinions towards what

因为该任务是基于短语片段的,所以本文提出一种基于Span(跨度)的统一模型,其实就是一种end-to-end模型。又因为作者考虑到短语片段大概率都会是一种成分句法结构,所以作者通多任务和GCN方法融入和成分句法知识。

最终在MPQA 2.0数据上得到了exact F1指标(预测的完整性)达到了最佳的性能,并对成分句法信息做了充分的分析。

具体介绍

模型

任务定义

对label的表示、三要素(opinion、holder和target)的定义。

总体模型

输入层

word embedding、char embedding、sentence embedding的整合:

编码层

Span的定义

Span分数的计算

这里的Span其实是类似枚举每一种短语片段,但是有一些Span的长度几乎可以提早pass,所以这里损失用的为focal loss

上面是Span的定义和分数计算,那么Span获取之后,接下来就是计算Span直接组合关系的分数了:

最后损失的计算如下

其实上面的基于Span的模型类似的构建方法在SRL任务上使用过,感兴趣的可以看华盛顿大学何律恒大佬的这篇发表在ACL2018上的文章:

Jointly Predicting Predicates and Arguments in Neural Semantic Role Labeling

实验

因为MPQA 2.0的数据量比较小,所以这种情况一般都需要引入知识驱动,所以作者根据对于片段信息的分析,得出使用成分句法结构作为额外信息的想法:

多任务MTL方法

GCN方法

但是传统的GCN方法不适用于成分句法,具体如何改进感兴趣可以看下论文哈。

实验

在end-to-end上于前人的对比

在具体expression片段预测的对比

在给定expression下的实验对比

使用成分句法信息的实验对比

上面几个实验可以看出,本文提出的方法在预测片段的完整性(exact F1)上能得到出色的结果,所以下面对此做了一个更深入的柱状图,从而更好的分析

分别在基于传统BIOSE与Span-based方法  和  是否使用成分句法树的case分析:

最后,也分析了何种组合方式使用成分句法信息最好:

最后也展示了使用成分句法结构信息在opinion长度和关系之间的距离上的影响


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易,还望给个在看!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值