【多轮对话摘要】最新论文方法集合、数据集

根据多轮对话多个角色(说话者)、话题转换、非结构化(共指信息、冗余、话语风格)等特征,与传统的结构化文本摘要有不同之处,基于多轮对话摘要的研究如下:

An Exploratory Study on Long Dialogue Summarization: What Works and What’s Next. EMNLP 2021

论文链接https://aclanthology.org/2021.findings-emnlp.377.pdf

方法

一、

许多方法是 基于对话的特征从主题感知、面向角色、话语感知、结构感知、对话阶段、低资源等特征出发进行研究,还有是从数据增强、融入知识图谱、可控性生成、预训练等角度的研究:

Dialogue Summaries as Dialogue States (DS2),Template-Guided Summarization for Few-shot Dialogue State Tracking     ACL 2022

对话阶段跟踪与对话摘要

论文链接https://aclanthology.org/2022.findings-acl.302.pdf

 Language Model as an Annotator: Exploring DialoGPT for Dialogue Summarization.  (ACL 2021 DialoGPT 无监督对话注释器)

论文链接https://aclanthology.org/2021.acl-long.117.pdf

Dialogue Discourse-Aware Graph Model and Data Augmentation for Meeting Summarization 2020

论文链接https://arxiv.org/pdf/2012.03502v2.pdfStructure-Aware Abstractive Conversation Summarization via Discourse and Action Graphs

论文链接https://aclanthology.org/2021.naacl-main.109.pdf

Topic-Aware Contrastive Learning for Abstractive Dialogue Summarization  2021 EMNLP

抽象对话摘要的主题感知对比学习

论文链接https://aclanthology.org/2021.findings-emnlp.106.pdf

Incorporating Commonsense Knowledge into Abstractive Dialogue Summarization via Heterogeneous Graph Networks   常识知识库

论文链接icon-default.png?t=M85Bhttps://aclanthology.org/2021.ccl-1.86.pdf

二、以下为方法的大致分类:

现有的方法大多数是基于对话的特征从数据增强的角度出发:

1、有半监督自我训练的方法(CODA对话数据增强)、基于条件前缀的弱监督(个人命名实体规划用于条件、预训练的条件生成模型CODA、前缀指导生成任务后训练 PGG)、具有草图的监督方法,还有对话行为引导插入CODA;

Simple Conversational Data Augmentation for Semi-supervised Abstractive Conversation Summarization. EMNLP 2021

CODAhttps://aclanthology.org/2021.emnlp-main.530.pdf

Controllable Neural Dialogue Summarization with Personal Named Entity Planning. (2021 EMNLP 个人命名实体规划用于条件的可控神经对话摘要)

论文链接https://aclanthology.org/2021.emnlp-main.8.pdf

Controllable Abstractive Dialogue Summarization with Sketch Supervision. (2021 acl findings

具有草图监督的可控抽象对话摘要)

论文链接https://aclanthology.org/2021.findings-acl.454.pdf

Post-Training Dialogue Summarization using Pseudo-Paraphrasing.  NAACL 2022 PGG

论文链接https://aclanthology.org/2022.findings-naacl.125.pdf

Domain-Oriented Prefix-Tuning: Towards Efficient and Generalizable Fine-tuning for Zero-Shot Dialogue Summarization.  2022 NAACL  无代码

(面向领域的前缀调整:实现零样本对话摘要的高效和通用微调)

论文链接https://aclanthology.org/2022.naacl-main.357.pdf

2、有一部分方法是从编码器、解码器、组合编码器解码器进行多过程(DAMS)、多阶段(locate-summarize;Summ N)、多层次(HMNet)、多视图(MultiView-BART)的预训练

Low-Resource Dialogue Summarization with Domain-Agnostic Multi-Source Pretraining.(EMNLP 2021 复旦大学  与领域无关的多源预训练的低资源对话摘要 DAMS)

论文链接https://aclanthology.org/2021.emnlp-main.7.pdf

QMSum: A New Benchmark for Query-based Multi-domain Meeting Summarization. (NAACL 2021 locate-summarize)

论文链接https://aclanthology.org/2021.naacl-main.472.pdf

SUMMN: A Multi-Stage Summarization Framework for Long Input Dialogues and Documents. (acl 2022)

论文链接https://aclanthology.org/2022.acl-long.112.pdf

A Hierarchical Network for Abstractive Meeting Summarization with Cross-Domain Pretraining. (层次会议摘要网络 HMNet)

论文链接https://aclanthology.org/2020.findings-emnlp.19.pdf

Multi-View Sequence-to-Sequence Models with Conversational Structure for Abstractive Dialogue Summarization.  (EMNLP 2020 多视图序列到序列的模型)

论文链接https://aclanthology.org/2020.emnlp-main.336.pdf

3、基于对话的特征对编码器解码器的模改,有角色注意力模块(other roles matter ACL 2022 )、结构融合编码器(无代码 FinDs EMNLP 2021 无代码)、基于窗口的去噪编码器(DIALOGLM AAAI 2022 微软)

Other Roles Matter! Enhancing Role-Oriented Dialogue Summarization via Role Interactions.

论文链接https://aclanthology.org/2022.acl-long.182.pdf

A Finer-grain Universal Dialogue Semantic Structures based Model Fo Abstractive Dialogue Summarization. (FinDs)

论文链接 无代码https://aclanthology.org/2021.findings-emnlp.117.pdf

DIALOGLM: Pre-trained Model for Long Dialogue Understanding and Summarization.

论文链接 微软https://arxiv.org/pdf/2109.02492v2.pdf

多轮对话的数据集

QMSum: A New Benchmark for Query-based Multi-domain Meeting Summarization

基于查询的会议摘要任务提出了一个新的基准 QMSum。我们构建了一个定位然后汇总管道作为基线,并进一步研究我们模型的不同定位器和汇总器的变体,采用不同的训练设置,包括跨域和多域实验来评估泛化性,并分析查询类型的任务难度.新的任务和基准留下了几个开放的研究方向有待探索:1)如何处理长会议话语; 2)如何使会议摘要模型泛化好; 3) 如何生成与会议记录和查询一致的摘要。 4)如何降低会议摘要的注释成本。

CSDS: A Fine-Grained Chinese Dataset for Customer Service Dialogue Summarization (2021 EMNLP)

论文链接https://aclanthology.org/2021.emnlp-main.365.pdf

一种用于客户服务对话摘要(CSDS)的新型细粒度中文数据集。 CSDS在两个方面对抽象摘要进行了改进:(1)除了对整个对话的整体摘要外,还提供了面向角色的摘要,以获取不同发言者的观点。 (2) 所有的摘要分别对每个主题进行总结,从而包含对话的主题级结构。我们将 CSDS 中的任务定义为为给定对话生成总体摘要和不同的面向角色的摘要。

MEDIASUM: A Large-scale Media Interview Dataset for Dialogue Summarization  2021 NAACL

一个大型媒体采访数据集,由 46.36 万份带有抽象摘要的文字记录组成。为了创建这个数据集,我们从 NPR 和 CNN 收集采访记录,并使用概述和主题描述作为摘要。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值