文献阅读
文章平均质量分 72
TycoonL
这个作者很懒,什么都没留下…
展开
-
[CVPR2022|跨模态检索]ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval
文章地址: http://arxiv.org/pdf/2203.16778个人阅读见解,欢迎大家交流讨论指正~一、研究背景视觉外观被认为是跨模态检索中理解图像的最重要线索,而有时图像中出现的场景文本(Scene text)可以为理解视觉语义提供有价值的信息。现有的跨模式检索方法大多忽略了场景文本信息的使用,并且若直接添加这些信息可能会导致无场景文本场景中的性能下降。作为最重要的多模态理解任务之一,跨模态检索因其在新闻搜索和产品检索等领域的重要应用而备受关注。跨模态text-to-image检索旨在.原创 2022-05-02 19:28:20 · 3342 阅读 · 2 评论 -
[CVPR2022|基于文本实例分割]ReSTR: Convolution-free Referring Image Segmentation Using Transformers
ReSTR: Convolution-free Referring Image Segmentation Using Transformers原创 2022-04-25 18:39:21 · 4316 阅读 · 1 评论 -
[CVPR2022|语义分割]NightLab: A Dual-level Architecture with Hardness Detection for Segmentation at Night
论文链接:https://arxiv.org/pdf/2204.05538.pdf个人阅读见解,欢迎大家交流指正~原创 2022-04-22 22:45:31 · 2131 阅读 · 1 评论