武汉大学提出软模板SoftProto框架，大幅增强方面词抽取任务

最新推荐文章于 2021-09-12 15:20:46 发布

PaperWeekly

最新推荐文章于 2021-09-12 15:20:46 发布

阅读量594

点赞数

文章标签：自然语言处理算法编程语言机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/110211564

版权

本文介绍了武汉大学的一项研究，提出了SoftProto框架，该框架通过软模板增强方面词抽取任务，有效解决了评论文本中方面词和环境词长尾分布的问题。实验表明，SoftProto框架能显著提升序列标注器在方面词抽取任务上的性能。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者｜陈壮

学校｜武汉大学博士生

研究方向｜情感分析、信息抽取等

本文介绍一篇我们发表于 EMNLP-2020 的论文《Enhancing Aspect Term Extraction with Soft Prototypes》，该工作提出基于软模板的 SoftProto 框架来增强方面词抽取任务，旨在解决评论文本中方面词和环境词具有长尾分布的问题。

SoftProto 框架几乎可以与所有的序列标注器进行结合。在多个 SemEval 数据集上的实验表明，软模板的引入大幅度地提升了几个经典序列标注器在方面词抽取任务上的性能。

论文标题：

Enhancing Aspect Term Extraction with Soft Prototypes

论文链接：

https://www.aclweb.org/anthology/2020.emnlp-main.164.pdf

代码&数据：

https://github.com/NLPWM-WHU/SoftProto

方面词抽取任务

方面词抽取任务（Aspect Term Extraction，ATE）是方面级情感分析中的一个基础性子任务。给定一个评论文本，ATE 的目标是抽取被用户表达了情感的方面短语。例如对于评论“The Bombay style bhelpuri is very palatable.”，ATE 希望抽取出方面词“bhelpuri”。

ATE 在过去二十年间已被广泛研究。早期的研究多致力于设计规则或是手工特征实现抽取。随着深度学习的发展，目前多数研究都将 ATE 当作一个序列标注任务，并设计序列标注器为评论生成对应的标签序列。

问题与动机

虽然现有的序列标注方法在 ATE 任务上已经取得了优良的性能，但它们仍然面对一个严峻的挑战：由于缺少包含尾部词的样本，序列标注器可能会收敛到较差的状态。如图 1 所示，在常用的 SemEval 数据集中，大约 80% 的方面词和环境词（即非方面词）都出现不超过 5 次。根据相关研究，在训练样本不足的情况下，神经网络模型很难收敛到最优状态。

▲ 图1 SemEval数据集中方面词（左图）与环境词（右图）的分布

为了解决上述问题，我们的基本设想是将样本相互关联起来，从而帮助罕见词的抽取。例如，如果我们将前例中的罕见方面词“bhelpuri”与常见方面词“food”关联起

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。