sota结果是什么意思_文本摘要新框架,抽取式摘要“轻松”取得SOTA

2968f5adae47734a99dc0dfab96a4260.png

分享我们在ACL2020上一篇文本摘要的工作:

论文:Extractive Summarization as Text Matching

链接:https://arxiv.org/pdf/2004.08795.pdf

优秀的合作者们: Ming Zhong, Yiran Chen, Danqing Wang, Xipeng Qiu, Xuanjing Huang

代码已经开源(包含了模型输出结果)(Credits goes to Ming Zhong):https://github.com/maszhongming/MatchSum

一图晓模型:预测?不,我们来语义匹配!

affc645e05763e0c3f17f4be9cc4c8e2.png

整个框架十分简洁,其基本假设为:一个好的候选摘要(Candidate Summary)和源文档(Document)的语义匹配得分应该高于质量较差的候选摘要和源文档的匹配得分。当然,Gold Summary和源文档的语义匹配得分理应最高。

简述下这篇工作的几个亮点:

1) 抽取式摘要经典评测数据集(CNN/DailyMail)上的最好结果(SOTA)被提高到新的阶段(只借助了BERT基础版, i.e., BERT-base)。

2) 打破原有的解决抽取式摘要的思路,这里提出了一个全新的范式:将抽取式摘要任务转化为一个语义匹配的问题。其优点在于可以直接对Candidate Summary (若干个句子)进行抽取,而不是Sentence-level(一个句子一个句子)抽取。

3) 这篇文章最大的特色在于,除了SOTA结果,我们还给了一个有充分根据的分析,从理论上解释了:

a) 为什么summary-level 对抽取式摘要很重要

b) 对不同数据集而言,summary-level的方法相对于sentence-level的预期收益 (expected gain) 是多少。

比如:文中, 我们定义了一个”Pearl-Summary”(珍珠摘要)的概念,它是指那些容易被sentence-level approach 忽略却往往是 真正高质量的候选摘要。沧海遗珠,茫茫候选摘要集里,只有举目千里(summary-level approach),方可讨得真宝贝。

感想与展望:

1)过去谈到summary-level优化,我们最先想到的就是用强化学习(RL),但是这种训练麻烦,调参痛苦,收益不稳定的方法,实在应该给个差评。而本文用到的匹配框架实际上是通过一种对比学习(contrastive learning)的思路绕过了这些困难。

2)这样一种基于深度语义匹配的摘要系统,基本思路很干净,本文用到的框架也足够简洁(两个BERT-base),没有设计复杂的交互函数,然而却将结果得到了很大的提高,个人认为,这种框架的表现力还未被充分挖掘。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值