文本生成相关顶会、代码运行环境、注意事项

47 篇文章 2 订阅
7 篇文章 0 订阅

1、EMNLP-2019-Text Summarization with Pretrained Encoders

论文地址
https://aclanthology.org/D19-1387/
代码地址
pytorch
https://github.com/nlpyang/PreSumm
带有部分注释的pytorch代码
https://github.com/tyistyler/PreSumm_Annotation
注意事项
(1)pyrouge需要正确安装;github中提供了预处理好的数据集,建议下载json数据自己处理一遍。
(2)抽取式摘要:

  1. 抽取的目标句子需要根据特定的方法预先生成;
  2. 得到bert每个token的输出后,利用每个句子的cls标签,得到batch个句向量-[batch_size, cls_num, hidden_dim],然后通过一个全连接网络得到输出目标-[batch_size, cls_num],最后与真实标签label计算loss。
  3. 在验证阶段,使用loss来保存模型(即保存loss最小的模型) 。
  4. 在预测阶段,选择得分最高的前n个句子即可,n是超参数。

(3)生成式摘要:

  1. 在训练阶段,对于一句话的前n-1个token,利用Bert和Transformer_Decoder,预测这句话的后n-1个token;
  2. 在训练阶段,loss使用了平滑技术和KL散度,调用方法为
    batch_stats = self.loss.sharded_compute_loss(batch, outputs, self.args.generator_shard_size, normalization)。
  3. 在验证/测试阶段,loss计算调用方法为batch_stats = self.loss.monolithic_compute_loss(batch, outputs)。
  4. 在验证阶段,使用loss来保存模型(即保存loss最小的模型) 。
  5. 在测试/预测阶段,使用Beam search来生成结果。
    Beam search例子。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值