（五十八）：Semi-Autoregressive Transformer for Image Captioning

最新推荐文章于 2023-08-18 10:00:00 发布

Laura_Wangzx

最新推荐文章于 2023-08-18 10:00:00 发布

阅读量624

点赞数

分类专栏： “情感分析”研究方向论文-精读总结文章标签： transformer 自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37486501/article/details/120808847

版权

“情感分析”研究方向论文-精读总结专栏收录该内容

88 篇文章 202 订阅 ¥19.90 ¥99.00

订阅专栏

本文介绍了SATIC，一种在全局保持自回归特性、局部并行生成单词的半自回归图像字幕模型。相较于自回归和非自回归模型，SATIC在速度和质量之间达到了更好的平衡。实验表明，SATIC在 MSCOCO 图像字幕基准上实现了与最先进的自回归模型相当的性能，同时显著提高了推理速度。

摘要由CSDN通过智能技术生成

（五十八）：Semi-Autoregressive Transformer for Image Captioning

Abstract
1. Introduction
2. Related Work
- Image Captioning
- - 非自回归解码
3. Background
- 3.1 Autoregressive Image Captioning自回归图像字幕
- 3.2 Non-Autoregressive Image Captioning 非自回归图像字幕
4 Approach
5 Experiments
6 Conclusions

出处：CoRR abs/2106.09436 (2021)
代码：https://github. com/YuanEZhou/satic
题目：用于图像字幕的半自回归变压器
主要内容：引入了一种半自回归的图像字幕模型(SATIC)，该模型在全局中保持了自回归特性，在局部中保持了非自回归特性。

Abstract

目前最先进的图像字幕模型采用：自回归解码器，即它们通过对之前生成的单词进行条件反射来生成每个单词，这导致了推断过程中的严重延迟。
为了解决这个问题，最近提出了：非自回归图像字幕模型，通过并行生成所有单词，显著加快推理速度。然而，这些非自回归模型由于过度消除了单词依赖，不可避免地会出现较大的生成质量下降。
为了在速度和质量之间做出更好的权衡，我们引入了一种图像字幕的半自回归模型(SATIC)，该模型在全局中保持了自回归特性，但在局部中并行生成单词。在Transformers的基础上，只需要进行少量的修改就可以实现SATIC。
在MSCOCO图像字幕基准上的实验结果表明，SATIC可以在没有附加功能的情况下实现良好的平衡。

代码可在http

了解本专栏

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Laura_Wangzx 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。