图像描述（image caption）2019 CVPR oral论文总结

最新推荐文章于 2023-06-11 14:45:30 发布

Charles、洛

最新推荐文章于 2023-06-11 14:45:30 发布

阅读量4.1k

点赞数 2

分类专栏：计算机视觉论文研读文章标签：人工智能计算机视觉 image caption CVPR 图像描述

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_35177634/article/details/100269915

版权

本文总结了2019年CVPR会议上关于图像描述的两篇oral论文，重点介绍了使用Part-of-Speech（POS）和Scene Graphs来改进图像标题生成的方法。第一篇论文提出POS指导的模型，实现了快速、多样化且准确的图像描述。第二篇论文利用Scene Graph进行字典学习，消除图像和语言的语义鸿沟，生成更精确的caption。

摘要由CSDN通过智能技术生成

图像描述（image caption）2019 CVPR oral论文总结

1. Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech

这篇文章旨在使用part-of-speech帮助生成多样的image caption，所谓part-of-speech可以理解成image的高层语义总结信息，用这个part-of-speech来指导模型生成对应的image caption，对比其他的生成多样性描述的结果如下：

可以看到使用最常见的beam search和它的衍生方法生成的速度较慢，并且虽然生成多个caption，但她们之间的相似性较高，但也较为准确。使用AG-CVAE，使用高斯噪声的自编码器还有使用GAN来生成多样caption的方法，虽然速度和多样性较好，但是由于不太稳定并且和一定的扰动，因此准确性较差。而本文提出的方法POS不仅速度快，多样性高，并且生成的模型较为准确。
模型的overview如下：

如图对于一张图像，使用part-of-speech分类来生成image的标签序列数据，

最低0.47元/天解锁文章

关注

2
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。