![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读
文章平均质量分 72
高德文
这个作者很懒,什么都没留下…
展开
-
论文阅读《Two-Stream Transformer for Multi-Label Image Classification》
- 最近的研究主要集中在通过注意操作来学习标签语义和高级视觉表征之间的跨模态交互作用。然而,由于公认的语义差距,这些基于一次性注意力的方法在建立视觉和文本之间的准确和健壮的对齐方面通常表现不佳。原创 2023-01-31 19:23:02 · 398 阅读 · 3 评论 -
论文阅读《Rethinking and Improving Relative Position Encoding for Vision Transformer》
动机相对位置编码在自然语言处理任务中被证明是有效的,而在视觉任务中更常见绝对位置编码,那么相对位置编码在视觉任务中是否有用?如果有用,是哪些因素起到了作用?贡献验证了相对位置编码的有效性验证了相对位置编码中不同因素起到的作用方法问题一:以前的相对位置编码都依赖于input embeddings,那么编码是否可以独立于输入探究方法:设计了两种相对位置编码的模式,偏置模式(独立输入)和上下文模式(考虑与查询、键或值的交互)偏置模式rij为可学习标量,表示位置i和j之原创 2021-08-19 14:59:59 · 1801 阅读 · 3 评论 -
论文阅读《Deep Semantic Dictionary Learning for Multi-label Image Classification》
动机一些利用类别语义信息的图像多标签分类模型只是使用语义信息作为视觉特征的补充或指导区分量词推导的辅助信息,而没有关注语义空间、语义空间和视觉空间之间的相互关系。贡献DSDL可以同时利用标签空间、语义空间和视觉空间;针对深层语义词典学习,设计了一种新的训练策略,即交替参数更新策略(APUS),它在正向传播和反向传播中交替更新表示系数和语义词典。方法Overview。该模型将多标签图像分类视为一个特质字典表示问题,利用类别的word embedding来生成语义词典,并将label em原创 2021-08-16 16:55:53 · 782 阅读 · 0 评论