视觉文本对齐
文章平均质量分 74
李加贝_
这个作者很懒,什么都没留下…
展开
-
Self-Supervised Learning for Semi-Supervised Temporal Action Proposal-- CVPR 2021 论文阅读
这篇论文,作者通过使用自监督方法来提升半监督的时间动作定位temporal-aware semi-supervised branch relation-aware self-supervised branchsemi-supervised branch:Mean teachertemporal feature shifttemporal feature flipself-supervised branch:masked feature reconstructionc原创 2021-10-21 10:47:08 · 471 阅读 · 0 评论 -
《Seeing Out of the box End-to-End Pre-training for Vision-Language Representation Learning》2021论文阅读
由于之前的工作都是基于region特征,然后对齐region-word特征然而基于region的存在以下限制:基于region的只能关注到bounding box内的object,忽视了上下文信息 大部分基于区域的图像特征是通过检测模型提取的,存在质量低、噪声、过采样等问题,依赖于大规模的bounding box标注数据。 预定义的对象和属性类别有限因此作者提出了将一个image作为输入,端到端的进行视觉语言预训练主要创新:Visual dictionary(等同于聚类,...原创 2021-10-05 23:27:14 · 477 阅读 · 0 评论 -
《Unsupervised Vision-and-Language Pre-training Without Parallel Images and Captions》论文阅读
idea受无监督机器翻译的启发,作者旨在研究在没有成对的image-caption语料库的setting下通过无监督预训练学习一个更强的视觉语言特征模型作者提出了一种mask-and-predict预训练方法在只有文本和只有图像的语料库中,并且引入了目标检测模型来检测目标标签来连接两个模态Method作者受multi-lingual contextual language models的启发,将图像作为一个区域集合,并且将每一个区域作为一个token作者使用Visual.原创 2021-10-01 16:45:20 · 258 阅读 · 0 评论 -
《UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning》论文阅读
作者提出了一个统一模态的预训练结构,它可以适应单模态任务和多模态任务同时还利用了大量自由的语料库和图像集来增强视觉和文本的理解,此外跨模态对比学习(CMCL)被用来将文本和视觉信息对齐到一个统一的语义空间UNIMOUNIMO利用多层自注意力的Transformer来学习视觉和文本的统一语义特征图像:首先将图像转换为region特征序列,然后输入到自注意力机制中,学习上下文特征IMG表示全局图像特征文本:首先将文本转换为subwords序...原创 2021-09-20 09:34:01 · 317 阅读 · 0 评论 -
LAViTeR:Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation
这篇论文的task主要是视觉文本对齐,作者首先分别在全局和局部的角度上进行跨模态匹配,然后提出使用图像和字幕的生成任务来进一步辅助视觉文本对齐Main goal: 学习联合多模态嵌入text-toimage module (TIM) and image-to-text module (ITM).VTA: Visual Text Alignment该部分,作者分别从局部和全局的角度来计算图像文本的匹配分数Image: 局部特征r,全局特征vText:wor...原创 2021-09-16 16:22:03 · 141 阅读 · 0 评论