【论文笔记】Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

最新推荐文章于 2024-07-06 09:16:01 发布

烫烫烫烫的若愚

最新推荐文章于 2024-07-06 09:16:01 发布

阅读量2.5k

点赞数 1

文章标签： bert 深度学习计算机视觉

本文链接：https://blog.csdn.net/gjh1716718326/article/details/122566328

版权

这篇文章考虑到了现在方法中存在的一个问题：

为什么说这是一个问题：

Fast-R-CNN这些模型在训练的时候都是有特定的针对任务的（大多数是针对目标识别的），因此模型中的隐状态也都是为了服务于目标识别的，针对性很强，不具备通用化的能力（或者说在训练过程中损失了一部分的语义semantic信息）
比如目标识别的模型虽然对于目标很敏感，但是对于目标之间的关系是不敏感的，对于情绪（可以看作一种属性）也是不敏感的。
还有一个原因，这些图片框都是矩形的，那么由于形状的限制，一般不得不框住一些多余的部分，这就会带来噪音。

在这里插入图片描述
要如何解决这个问题呢？

关注