A Robustly Optimized BMRC for Aspect Sentiment Triplet Extraction阅读笔记

前言

ASTE是一个有趣的任务,双向机器阅读理解模型(BMRC)虽然可以有效的解决ASTE,但还存在一些问题,例如共享分类器导致的查询冲突等。一些有效策略也被忽略,分词,span 匹配和概率生成。
因此,本文提出一个稳定的优化BMRC方法,ASTE转化成机器阅读理解问题,通过基于特定上下文的双向查询处理方面和意见之间的复杂对应关系,这种关系更好预测各种sentiments。为了更有效的解决ASTE任务,本文合并了分词和exclusive分类器,并且改进sapn匹配,增加了概率和位置关系相结合的优先级规则。本文优化了概率生成以避免unilateral dcrease(不清楚什么意思)
总结贡献:
1.BMRC设计专用分类器,以避免不同问答步骤之间的干扰和查询冲突
2.通过添加分词、改进span匹配和概率生成,进一步提高了预测性能
3.在基准数据集上做了大量的实验,提出的模型达到了sota表现

方法

简单说明ASTE任务和BMRC模型,详细介绍我们的四个改进。

问题建模

给出一个句子 W = { w 1 , w 2 , . . . , w M } W=\lbrace w_1,w_2,...,w_M\rbrace W={w1,w2,...,wM},有M个token,ASTE任务是鉴定三元组 T = { ( a i , o i , s i ) } i = 1 ∣ T ∣ T=\lbrace(a_i,o_i,s_i) \rbrace_{i=1} ^{|T|} T={(ai,oi,si)}i=1T, ∣ T ∣ |T| T表示三元组数量。

BMRC

BMRC可以根据上下文提出相应的问题,并且模型输出想要的答案
前向query
后向query
情感预测
在这里插入图片描述
在这里插入图片描述

word segmentation

使用bert’中wordpiece分词words to subwords

Exclusive Classifiers

需要不同的queries
原始BMRC所有queries共享一个classifier,会引起冲突,因此添加特有分类器,提高性能

span Matching

1.考虑开始位置,结束位置的概率
2.考虑位置的关系
1表示模型对位置的乐观程度,2判断开始结束位置span尽可能的近。
概率的优先级高

Probability Generation

双向查询和span匹配完成,就可以得到具有对应关系的方面意见对,在BMRC中,开始和结束位置的概率乘积作为span的概率,匹配(pair)的概率是aspect和opinion的概率乘积。这种方式pair 概率单边下降(decreases unilaterally)不能很好的代表模型对pair的预测。
For example, the probability of the four positions of pair is
0.9, while the probability of pair is 0. 9 4 0.9^4 0.94 = 0.6561,which seems not so reasonable
通过概率生成,我们可以有效地解决span和pair 的概率单边下降(decreases unilaterally)的问题,使它们的概率更能有效反映模型的期望。
在这里插入图片描述
平衡 span 和 pair 的概率,使它们的概率在两个相关概率的区间内。 它使我们能够避免概率的单边降低,但更适合模型的期望。
这个计算方法 P ( s p a n s t a r t ) P (span_{start}) P(spanstart) and P ( s p a n e n d ) P (span_{end}) P(spanend) 与BMRC [ 1 ] ^{[1]} [1]一致
在这里插入图片描述

实验

数据集、评估指标、基线、实验结果、消融实验

数据集

ASTE-Data-v1 [ 2 ] ^{[2]} [2]
ASTE-Data-v2 [ 3 ] ^{[3]} [3]
V2是V1的精化数据

评估标准

使用精度(P),召回(R)和F1分数作为评估指标来评估性能。仅当正确预测方面,观点和情感时,三元组预测才正确

结果

在这里插入图片描述
在这里插入图片描述

消融实验

在ASTE-Data-v2上消融,逐渐叠加,每项改进都提高了模型的性能,证明了其优势和有效性。
F1实验至少3次
在这里插入图片描述

参考文献

1.Shaowei Chen, Yu Wang, Jie Liu, and Yuelin Wang.2021. Bidirectional machine reading comprehen-sion for aspect sentiment triplet extraction. Proceedings of the AAAI Conference on Artificial Intelligence, 35(14):12666–12674
2.Haiyun Peng, Lu Xu, Lidong Bing, Fei Huang, Wei Lu,and Luo Si. 2020. Knowing what, how and why:A near complete solution for aspect-based sentiment analysis.Proceedings of the AAAI Conference on Artificial Intelligence, 34(05):8600–8607
3.Lu Xu, Hao Li, Wei Lu, and Lidong Bing. 2020.Position-aware tagging for aspect sentiment triplet extraction. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2339–2349, Online.Association for Computational Linguistics

### RoBERTa简介 RoBERTa是一种经过稳健优化的预训练语言模型,旨在改进BERT的效果[^3]。该方法通过对关键参数和数据集大小影响的研究来实现这一目标。 ### 原理 #### 数据增强技术的应用 为了提升模型性能并增加其鲁棒性,研究者采用了多种数据增强策略,比如随机更改输入文本中的字符或短语顺序以及插入噪声等手段[^2]。 #### 输入结构的变化 不同于传统的BERT采用的`SEGMENT-PAIR`方式构建输入,RoBERTa选择了更有效的`FULL-SENTENCES`模式,并且取消了NSP(Next Sentence Prediction)任务的设计[^5]. ### 实现细节 在具体实现方面: - **超参调整**: 对于Adam优化器的学习率、warmup步数进行了针对性调节;同时提高了批量处理过程中的稳定性和效率。 - **硬件配置**: 使用配备有8个Nvidia V100 GPU的强大计算资源来进行高效能运算支持。 - **序列长度设定**: 所有的训练均基于固定的最大token数量(T=512),不再像之前那样动态变化序列长度[^4]. ```python def train_roberta_model(): # 设置最大tokens数目为512 max_tokens = 512 # 配置Adam优化器参数 optimizer_config = { 'lr': adjusted_learning_rate, 'betas': (beta_1, 0.98), # 特别注意这里的β2值被设为0.98以确保大批量训练时更加稳定 'eps': fine_tuned_epsilon_value } # 开始训练... ``` ### 应用场景 由于具备更强的语言理解和生成能力,RoBERTa可以广泛应用于自然语言处理领域内的各种任务当中,如情感分析、问答系统开发等领域内发挥重要作用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值