无监督文本摘要,生成式文本摘要

论文:Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and Context-Aware Auto-Encoders.AAAI2021

算法概要:

基于相似度选择对话主题句,然后借助降噪自编码器生成对话摘要。

训练:1、采用对比学习的思想训练句子相似度计算模型;

2、训练降噪自编码器用于后续生成对话摘要。

测试:基于MMR的想法,综合考虑重要性和冗余度选取对话主题句,然后使用降噪自编码器生成最终摘要。

一、论文贡献

提出无监督神经网络框架RankAE

RankAE组成:

1、训练句子相似度计算模型,选择主题句

2、DAE(去噪自编码器)

二、实现

训练相似度模型:

噪声数据构造:

1、片段插入:在同一聊天文本中采样词序列,插入到原始对话中,直到序列长度增加 40% 到 60% 的比例,此方法插入概率Pa;

2、句子替换,整个句子换成同一聊天的其他句子,被替换的句子在语料中删除,以便模型学会在粗粒度级别上过滤掉不相关的话语,概率Pr;

3、以概率Ps 保持话语不变。 内容保留的目的是使表示偏向于实际观察到的话语;

train DAE

​推理:

三、实验

实验数据:

​实验结果:

​说明:

LEAD是下限

ORACLE 是上限,有监督抽取式;

TRF为transformer

PacSum:通过构建有向图和添加基于边缘方向的权重约束来改进 TextRank;

MeanSum:使用来自输入句子的自动编码器表示的平均值来解码摘要;

SummAE:通过使用 DAE 和对抗性判别器联合重建文档和句子来生成简短的摘要;

示例:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

菜鸟ccc

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值