【论文向】Hierarchical Bi-Directional Self-Attention Networks for Paper Review Rating Recommendation

【论文向】ACL2020-论文评测(层次化Attetion模型)

Hierarchical Bi-Directional Self-Attention Networks for Paper Review Rating Recommendation


注:论文阅读笔记仅帮助大家快读了解、知晓论文的创新点、重点等,如需详细掌握请点击上方标题自行阅读,在此是存在一定博主和读者偏见的,有任何问题欢迎留言指正或讨论。

Humble opinion

愚见总结:

学术论文评测的优秀文章,用论文评论来做论文的评测

任务角度上:两个任务,论文评论的评级(1-10分)的多分类+利用论文评论数据进行预测论文是否被接收的二分类任务。任务角度很出色,或者说数据集选取出色,使用结合了人的优势的论文评论而非论文本身去做预测,但不可避免地出现了情感因素的干扰。
模型角度上:三种Encoder(Bi-SAN+Attention)的模型结构,由词向量得到句向量、由句向量得到评论向量、由评论向量得到代表论文去做预测的最终向量


以下结构均为原始论文书写结构

Abstract

论文评测(审稿回复)的预测技术有前景,然而大多数现存方法局限于人工特征或直接将论文的评论直接作为文本输入,而忽略了论文评论数据本身的层次性。本文提出了一种 Hierarchical bi-directional self-attention Network framework (HabNet)的模型架构来做论文评论的预测和推荐。具体而言,利用论文评论数据的层次结构做了三种Encoder,每一种Encoder也是根据前一个encoder产生的。并提出了在样本不平衡下的两种评测指标。在数据集PeerRead和OpenReview做到了state-of-the-art

  • sentence encoder (level one)
  • intra-review encoder (level two)
  • inter-review encoder (level three)

1 Introduction

本文的训练目标,根据论文的评论数据做出打分,1-10分,十分类问题并给出最终论文是否被accpeted的预测,二分类问题

从05年起,前人对于论文评论的预测都视作多分类/回归问题,鉴于在有监督学习中的特征重要性,大多数相关研究都侧重于在论文评论中提取有效特征来提高预测效果。然而,特征工程耗时耗力( time-consuming and labor-intensive)

最近,随着深度学习的发展,研究者们更倾向于利用模型去提取文本中的特征。虽然深度学习模型可以自动为文本做出不错的特征表征(embedding词嵌入),但他们并不能很高效地捕捉到论文评论数据中的层次结构。为解决这个问题,Yang et al.2016 研究出了一种层次结构并用神经学习模型获得了更好的document-level 文档级的文本表征。同样随着Attention机制的成功,也有人设计了 directional self-attention去获得有着上下文感知的词向量和句向量。虽然这些模型取得了诸多进展,但它们并没有关注论文评论的评级和推荐任务,也没有高效到能直接应用到这项任务上,因为有着这样三个原因:(1) 论文评论有有三种层级(word level, intra-review level and inter-review level)词、内部评级、互相评级,而上述模型只能捕捉到前两种;(2)论文评论更长;(3)没使用 最新的嵌入技术,如BERT、SciBERT等

本文贡献:

  • 提出模型取得sota,第一个将不同层次的语义信息整合到层次神经网络中以执行论文评审评级预测的工作
  • 提出在样本不均衡下的两种评测指标
  • 实验结果证明了所提议的方法在自动作出最终验收决定和帮助揭示论文评论内容和评级(数字)之间的不一致

2 Related Work

2.1 Review Rating Prediction

将评论评级是一项基本的情感分析任务。有诸多前人工作,不是本文重点不做阐述。这里值得注意的是,在论文评测任务上,仅针对数据集为论文,任务目标为论文是否被采纳(还有对论文引用数量预测、论文内公式的NER等任务),有这样两篇论文,ACL2018的AAPR(笔者也有博客讲解)开始,到2019年的DeepReviewer利用论文的语法和创新去预测最终被接收的分数。

与上述工作不同的是本文目标是用self-attention框架通过原始的论文评论文本来预测论文的最终接收和评论评分。

2.2 Attention Mechanism

Attention好

3 Methodology

首先定义问题,其次讲解模型

3.1 Problem Setting

K篇论文,每篇论文有M条评论和是否被接收,每条评论 r i r_i ri有一个打分 c i c_i ci(1-10分),每条评论由N个句子组成,每个句子由L个单词w组成


w i , j , t = 第 i 条 评 论 的 第 j 个 句 子 的 第 k 个 单 词 w_{i,j,t} = 第i条评论的第j个句子的第k个单词 wi,j,t=ijk
i ∈ [ 1 , M ] , j ∈ [ 1 , N ] , t ∈ [ 1 , L ] i \in [1,M], j\in [1,N], t \in [1,L] i[1,M]j[1,N]t[1,L]

一篇论文的评论数据和评级与接收表示为
R = { ( r 1 , c 1 ) , . . . , ( r M , c M ) , y } R =\{(r_1,c_1),...,(r_M,c_M),y\} R={(r1,c1),...,(rM,cM),y}

3.2 (原处为Our)Their Approach

在这里插入图片描述
模型结构如上图,三个Encoder的结构十分类似,了解其一就都懂了

(1)Sentence Encoder中
通过bi-directional self-attention module (Bi-SAN)将word的词向量通过双向self-attention得到对应词的”两倍词向量“,之前每个word w i w_i wi d e d_e de维编码成 d 2 e d_{2e} d2e,再通过multi-dimensional source2token self-attention module将这些”两倍词向量“编码成这些词组成的句向量,权重便是attention weight

(2)Intra-Review Encoder与Sentence Encoder结构一样,不过是输入输出不同,将从Sentence Encoder得到的句向量当成上述的”词向量“同样处理,最后通过attention得到由这些句子组成的这条评论向量

(3)Inter-Review Encoder中
将Intra-Review Encode得到的每条评论向量也当作”词向量“,再通过Bi-GRU+Bi-SAN得到”两倍词向量“ r e i re_i rei,最后一样通过attention得到这篇论文所有评论组成的最终向量 r s rs rs。之后,就用这个最终向量 r s rs rs代表这篇论文,进行后续论文是否被接收的预测,而 r e i re_i rei向量代表的第i条评论去预测评论得分

3.3 Model Variants

为了显示出上述三种Encoder的作用效果,实验中有这样的考虑

  • HabNet-V1:去除Inter-Review Encoder,直接将 r i r_i ri求和平均作为 r s r_s rs去做论文是否被接收预测,用 r i r_i ri代替 r e i re_i rei去做评论评级
  • HabNet-V2:去除Sentence Encoder,取一句话的词向量求和平均作为句向量 s i s_{i} si
  • HabNet-V3:去除Intra-Review Encoder,取评论的每个句的句向量求和平均作为评论 r i r_i ri向量

4 Experiments and Results

4.1 Dataset

所用数据集为OpenReview和Extended PeerRead
在这里插入图片描述

4.2 Evaluation Metrics and Baselines

两种新的评测指标

  • Distance Measure (DM)
    在这里插入图片描述
    N : t h e n u m b e r o f c l a s s e s N:the number of classes N:thenumberofclasses
    R : R e c a l l R:Recall R:Recall
  • Optimized Precision (OP).
    在这里插入图片描述

4.3 Experimental Settings

论文是否被接收任务,是/否的二分类任务:
 50维的GloVe用于该模型和HAX-extented
 100维的GloVe用于除BERT外的baseline模型
 BERT用bert embeddings
epochs = 100

评论评级任务,1-10分的多分类任务:
 除BERT为均用100维的GloVe,BERT用bert embeddings
epochs = 50
经验法设定learning rate和batch size
本文有关模型HabNet实验运行十次取平均作为结果

4.4 Experimental Results and Discussion

在这里插入图片描述

4.5 Ablation Study

在这里插入图片描述

4.6 Case Study

Figure2:展示了accepted和rejected的top-15词
Figure3:展示了句向量在accepted和rejected的不同,颜色越深,attention的权重越大

4.7 Error Analysis

在这里插入图片描述
增加这一部分的实验真的让人钦佩,严谨,他们在实验结束后,还对模型预测错误的样本进行采样分析,就是一篇一篇人工看,研究为什么模型预测错误了。得到的结果简单而言:
就是在真正被accepted但被预测为rejected的论文中有很多评论中带有“unclear”, “limited”, “hard to interpret”, “not provable”这类词,而真正被rejected但被预测为accepted的论文评论中有 “looks good”, “interesting”这样的词汇

5 Conclusion

一篇论文的评审信息和评审之间的关系可能会影响最终的决定,而且每次评审中单词和句子之间的关系也可能会影响最终的决定。基于这些观察结果,本文提出了一种基于层次的双向自注意网络(HabNet)框架,用于论文评论评级预测和推荐,该框架能以端到端方式对单词、句子、内部和内部评论之间的交互进行建模。此外,考虑到评审评级预测任务中不同类别(即从1到10的评级)的不均衡分布,我们设计了两个新的指标来更好地评价模型。看到两实验结果的预测最终决定提交论文和识别评分,评论在两个数据集(开放-审查和扩展PeerRead)证明我们提出的层次结构框架有足够能力单词,句子和评论的数据集和优于其他模型。在未来,我们计划对多任务学习进行研究,用于论文评审评级推荐。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿芒Aris

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值