(五十八):Semi-Autoregressive Transformer for Image Captioning
目前最先进的图像字幕模型采用自回归解码器,即它们通过对之前生成的单词进行条件反射来生成每个单词,这导致了推断过程中的严重延迟。为了解决这个问题,最近提出了非自回归图像字幕模型,通过并行生成所有单词,大大加快了推理的速度。然而,这些非自回归模型由于过分地消除了单词依赖,不可避免地遭受了大的代质量下降。为了在速度和质量之间做出更好的权衡,我们引入了一种图像字幕的半自回归模型(SATIC),该模型在全局中保持了自回归特性,但在局部中并行生成单词。在变压器的基础上,只需要进行少量的修改就可以实现SATIC。在MSC
复制链接