李加贝_-CSDN博客

原创论文阅读(21 AAAI)Mind-the-Gap Unsupervised Domain Adaptation for Text-Video Retrieval

Task: 视频文本检索Setting：Unsupervised Domain Adaptation所使用的数据集：ActivityNet-Captions、MSR-VTT、LSMDC、MSVD经验风险最小化面临着两种类型的domain shiftvideo content/style shift description distribution shift（通常是由产生每个域的注释者团队之间的描述风格的差异所驱动的）作者提出了conceptAware-Pseudo-Qu

2021-11-19 09:41:36 518

原创论文阅读（21 CVPR）：Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval

跨域-跨模态检索Setting:Unsupervised Domain Adaptation (UDA)sampled from joint distributions P(v s, ℓ s) and Q(v t, ℓ t)(在一个联合分布上进行采样，并非任意两个不同的域)该模型由6个模块组成：视觉和文本编码器Ev和El 单模态视觉和文本keels Kv和Kl 跨模态源和目标原型网络Ps和Pt使用visual encoder Ev和text encoder El

2021-11-18 11:17:04 1174 3

原创论文阅读（21CVPR）：Semi-Supervised Action Recognition with Temporal Contrastive Learning

动机：Temporal Contrastive Learning (TCL) （TASK-动作识别）在这篇论文中，作者主要关注于视频中的“时间”这个监督信号，基于此提出了一个不同速度的时间通道对比模型，最小化不同速度的相同视频之间的相似度，最大化不同速度以及不同视频之间的相似度，由于instance-contrastive loss存在将相同类别的视频推远的缺点，作者提出了group-contrastive loss，将同一类别的识别归纳到同一个group中，并用group中的所有特征的平均值来表示

2021-11-11 13:48:52 1040

原创论文阅读：Beyond triplet loss: a deep quadruplet network for person re-identiﬁcation

之前的工作通常将person ReID作为一个ranking task，并且使用triplet loss，triplet loss主要是为了在映射空间中获得一个图像和identities的正确顺序，但是基于这种方法的模型，泛化能力不好，作者认为这潜在的原因是由于triplet loss会导致一个相对较大的类内差异，通过缩小类内差异并且增加类间差异可以进行改善针对上述问题，作者基于triplet loss进行修改，提出了一个quadruplet ranking loss, 实现了缩小类内差异以及增加类间差

2021-11-10 10:01:10 1231

原创论文阅读：CLIP2Video: Mastering Video-Text Retrieval via Image CLIP

动机：之前的大多都是试图从大规模的视频文本数据集中提取视频的时空特征以及视频和语言之间的多模式交互，作者将在图像语言中预训练的模型迁移到视频文本检索任务中，而之前这种使用这种方式的工作大多都是基于证明这种迁移学习是有效的，以验证CLIP模型在预训练中的效果。作者进一步研究了如何利用已有的显著的图像预训练模型，更好地建模视频帧与视频文本之间的时间依赖性。由于CLIP模型在图像文本上旨在建模空间关系，而视频相比图像多了时间维度，因此作者进一步提出了TDB和TAB来探索时间关系Temporal D

2021-11-08 16:27:37 1658

原创一些数据集

MSRVTT包含10,000个视频，每一个视频对应20个句子official split：train：6513个视频 val：497个视频 test：2990个视频split 1k-A： train：9000个视频 test：1000个视频MSVD包含1,970个视频和近似80,000个captiontrain：1200个视频val：100个视频test：670个视频VAT...

2021-11-08 15:31:30 817

原创阅读笔记：Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

将（单词嵌入，物体标签，图像区域）三元组作为输入OSCAR引入物体标签用来缓解图像文本对齐学习从两个方面来进行预训练（模态角度和字典角度）A Dictionary View: Masked Token Loss.将tag或者文本特征mask掉，然后用周围的token和图像特征来预测mask的token，类似于masked language modelA Modality View: Contrastive Loss将图像的目标tag替换，作为polluted 图像特.

2021-10-26 19:25:23 1611

原创论文笔记：Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss

文本端：使用预训练的part-of-speech tagging (POS) models来找出文本中的名词和动词，然后通过sentence generation strategy (SGS)转换成名词句子和动词句子，使用通过CLIP预训练得到的Bert将它们编码成语义特征视频端：采用通过CLIP预训练的Vit作为bottom feature提取器，Fusion，entity和action experts用来从bottom feature中学习特定的语义匹配Sentenc...

2021-10-26 08:16:38 1165

原创 Cluster Alignment with a Teacher for Unsupervised Domain Adaptation--论文阅读 ICCV

主要解决不同域之间的对齐问题Lc强迫来自两个域的特征去组成鉴别性的clusterLa对齐不同域的相同class的特征Ly有标签数据的训练两个域在数据分布等其他特征数据不同时，全局的对齐会造成对齐错误discriminative clustering loss对于target domain，label是通过teacher生成的伪标签使相同类别的样本聚集在一起，同时推远不同类别的样本对于teacher分类器产生的不正确预测是否会影响模型的训练，作者说，..

2021-10-25 16:04:33 543

原创《Cluster Contrast for Unsupervised Person Re-Identiﬁcation》论文阅读

首先使用聚类来赋予伪标签，然后将每个cluster的特征随机一个放入memory中然后在一个batch中，使用查询图像来就散NCE loss，然后找到最不相似的同cluster图像来更新memoryMemory Initialization在训练过程中，聚类算法是在每个epoch上运行的，所以每次的聚类数量是不同的作者使用cluster中的一个随机实例来初始化聚类特征Memory Updating.在训练过程中，随机采样P个person ident...

2021-10-25 09:14:50 419 1

原创 Self-Supervised Learning for Semi-Supervised Temporal Action Proposal-- CVPR 2021 论文阅读

这篇论文，作者通过使用自监督方法来提升半监督的时间动作定位temporal-aware semi-supervised branch relation-aware self-supervised branchsemi-supervised branch：Mean teachertemporal feature shifttemporal feature ﬂipself-supervised branch：masked feature reconstructionc

2021-10-21 10:47:08 541

原创《Cross-Modality Person Re-Identiﬁcation with Generative Adversarial Training》论文阅读

模型使用RGB特征和红外特征，包含一个生成器和一个鉴别器Generator使用两种损失函数对Generator进行训练intra class embedding lossinter class embedding loss（cross-modality loss）Final objective functionDiscriminator作者构建了一个模态分类器作为鉴别器，判断两个特征是否属于同一模态Tr...

2021-10-12 16:18:28 585

原创《BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant Supervision》2020 论文阅读

TASK：open-domain named entity recognition (NER)ISSUE：distant supervision虽然不需要大量的手工标注，但通过外部知识库产生高度不完整和嘈杂的distant labels作者提出了两步训练算法，第一步使用预训练的模型（BERT）进行初始化，提高recall和精确度，第二步使用teacher-student模型进行自训练Method BERT-Assisted Distantly Supervised Lear..

2021-10-08 12:45:40 706

原创《Unbiased Teacher for Semi-Supervised Object Detection》2021-ICLR 论文阅读

动机由于目标检测任务中，存在foreground-background imbalance和foreground classes imbalance的问题，为了解决这个问题，作者提出了Unbiased Teacher，训练一个学生模型，并逐步的提升老师模型，彼此互相促进Methodthe BurnIn stage使用label data来训练detector，用来初始化detectorthe Teacher-Student Mutual Learning stage复制.

2021-10-08 09:21:56 799

原创《Unsupervised Image Captioning》2019论文阅读

将image feature作为输出，通过generator和discriminator来生成一个语法正确且通顺的句子，但该句子可能和图像内容无关，利用图像句子之间双向reconstruct来使生成的句子和图像语义相关Method给定一张图像，使用image encoder进行编码，得到image feature，将image feature输入到Generator（LSTM）中，基于图像特征和之前生成的单词输出每个单词的概率分布，根据概率分布在词表中进行采样然...

2021-10-06 16:06:13 228

原创《Seeing Out of the box End-to-End Pre-training for Vision-Language Representation Learning》2021论文阅读

由于之前的工作都是基于region特征，然后对齐region-word特征然而基于region的存在以下限制：基于region的只能关注到bounding box内的object，忽视了上下文信息大部分基于区域的图像特征是通过检测模型提取的，存在质量低、噪声、过采样等问题，依赖于大规模的bounding box标注数据。预定义的对象和属性类别有限因此作者提出了将一个image作为输入，端到端的进行视觉语言预训练主要创新：Visual dictionary（等同于聚类，...

2021-10-05 23:27:14 537

原创《Twins: Revisiting the Design of Spatial Attention in Vision Transformers》论文阅读

作者认为：空间注意力是非常重要的足够大的接受野对于性能的提高是非常重要的Vision Transformer的核心问题：如何设计空间注意力作者提出了两中vision Transformer结构：Twins-PCPVT和Twins-SVTTwins-PCPVT作者发现PVT中的global sub-sampled attention采用一个合适的位置编码是非常有效的，它的性能可以超过Swin Transformer，在这篇论文中，作者认为PVT的性能偏低的原因是因为

2021-10-01 22:05:03 652

原创《Unsupervised Vision-and-Language Pre-training Without Parallel Images and Captions》论文阅读

idea受无监督机器翻译的启发，作者旨在研究在没有成对的image-caption语料库的setting下通过无监督预训练学习一个更强的视觉语言特征模型作者提出了一种mask-and-predict预训练方法在只有文本和只有图像的语料库中，并且引入了目标检测模型来检测目标标签来连接两个模态Method作者受multi-lingual contextual language models的启发，将图像作为一个区域集合，并且将每一个区域作为一个token作者使用Visual.

2021-10-01 16:45:20 324

原创《Contextual Transformer Networks for Visual Recognition》阅读笔记

传统的Transformer是使用1x1卷积操作来获key-query pair，这种key-query pair都是独立的，没有考虑上下文作者提出了一种使用3x3卷积操作来得到融合上下文的key（局部上下文），作为static context，再将key与query拼接起来得到attention matrix，然后通过与value进行self-attn得到dynamic context，最终将static context与dynamic context融合起来作为最终的输出从上..

2021-09-22 08:16:41 1363

原创《UNIMO: Towards Uniﬁed-Modal Understanding and Generation via Cross-Modal Contrastive Learning》论文阅读

作者提出了一个统一模态的预训练结构，它可以适应单模态任务和多模态任务同时还利用了大量自由的语料库和图像集来增强视觉和文本的理解，此外跨模态对比学习(CMCL)被用来将文本和视觉信息对齐到一个统一的语义空间UNIMOUNIMO利用多层自注意力的Transformer来学习视觉和文本的统一语义特征图像：首先将图像转换为region特征序列，然后输入到自注意力机制中，学习上下文特征IMG表示全局图像特征文本：首先将文本转换为subwords序...

2021-09-20 09:34:01 409

原创《Point Adversarial Self Mining: A Simple Method for Facial Expression Recognition》论文阅读

Task：Facial Expression Recognition创新点：Teacher-student + Point Adversarial Attack.这篇论文使用Point Adversarial Attack自适应的选择每个image所要攻击的position，这个position是一个点（x，y）坐标，并且该position依赖于图像的分布和网络的预测能力，旨在找出对于预测最为sensitive的position，然后以这个点作为center将其局部信息mask掉，然后使用tea

2021-09-19 16:57:11 280 1

原创 LAViTeR:Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation

这篇论文的task主要是视觉文本对齐，作者首先分别在全局和局部的角度上进行跨模态匹配，然后提出使用图像和字幕的生成任务来进一步辅助视觉文本对齐Main goal: 学习联合多模态嵌入text-toimage module (TIM) and image-to-text module (ITM).VTA: Visual Text Alignment该部分，作者分别从局部和全局的角度来计算图像文本的匹配分数Image: 局部特征r，全局特征vText：wor...

2021-09-16 16:22:03 188

原创《Fastformer: Additive Attention Can Be All You Need》论文阅读

作者提出了一种基于additive attention 的transformer 变体，在线性复杂度下有效的建模上下文Architecture首先将embedding matrix转换为query、key、value序列，和标准的Transformer相同作者认为降低计算复杂度的一个潜在方法是在对注意力矩阵(如查询)进行交互建模之前对其进行总结。因此作者使用additive attention将query matrix总结为一个global query向量（变成向量这样做确...

2021-09-14 18:02:48 334

原创《AD-Cluster: Augmented Discriminative Clustering for Domain Adaptive Person Re-identiﬁcation》论文阅读

（引入对抗学习来进行数据增强）作者提出了一种自适应样本增强的方法，通过使用强化学习来生成更多多样性的样本，更大程度的对图像进行转换，并提出了min-max优化策略，最大化样本之间的差异，最大化聚类簇之间的距离，最小化同一簇样本之间的距离，来提高模型的鉴别能力。使用预训练好的re-ID模型预测样本的聚类类别 Image-generator继续将聚类图像转换到其他摄像机，以增加训练样本，同时保留原始的伪身份标签(即簇标签)。 Feature encoder不断学习，在特征空间中最小化聚...

2021-09-13 17:33:50 215

原创《Universal Weighting Metric Learning for Cross-Modal Matching》---CVPR2020 论文阅读

现有的度量学习方法大多是为单模态匹配而发展的，不适合异构数据的跨模态匹配，为了解决这个问题，作者提出了一个简单并且具有可解释性的通用的权重框架对于跨模态匹配，使用两个多项书来就算正负样本对的权值，此外，作者在通用权框架下引入了一种新的多项式损失，它分别定义了正信息对和负信息对的权函数，可以有效地从冗余对中选择信息对，并给不同的对分配适当的权重，从而提高性能。Universal Weighting Framework for CrossModal Matchingr...

2021-09-10 19:21:21 329

原创《CLIP2Video: Mastering Video-Text Retrieval via Image CLIP》 2021论文阅读

CLIP2Video: Mastering Video-Text Retrieval via Image CLIP作者从宏观的角度重新定义了视频文本检索，将其分为图像-文本多模态学习和视频帧与视频文本之间的时间关系。针对这两方面的考虑，作者提出了CLIP2Video网络，将图像-语言预训练模型转换为视频-文本检索，该模型基于一个图像-语言预训练模型和两个时间块，在精细的时间帧中捕捉运动，并分别对视频和语言之间的标记进行重新对齐。Temporal Difference Block由于.

2021-09-09 15:23:48 1363

原创《Watch, Listen and Tell: Multi-modal Weakly Supervised Dense Event Captioning》---CVPR2020 论文阅读

作者提出了一种基于注意的多模态融合模型来整合音频和视频信息。并设计了不同的融合策略来对视频和音频进行整合，证明了音频在视觉任务中的重要性提取audio，video，captions的特征，将它们输入到句子定位器中。然后在这些特征上应用一个跨注意力。使用注意力特征融合机制，紧接一个全连接层来产生时间segmentsCaption generator将这三个特征和得到的时间片段作为输入，它基于时间段对音频和视频特征进行soft mask clipping剪切，并使用上下文融合技术生...

2021-09-09 09:46:19 250

原创《Semi-Supervised Semantic Segmentation with Cross-Consistency Training》 2020CVPR 论文阅读

在这项工作中，作者首先观察到，对于语义分割，低密度区域在隐藏表示中比在输入中更明显。作者提出了交叉一致性训练，其中预测的不变性是施加不同的扰动在编码器输出上Cross-Consistency Training该模型包含一个共享的encoder，一个main decoder和K个辅助decoder对于有标签的数据，使用Cross-Entropy (CE)来进行训练对于无标签的数据，使用共享的encoder得到中间特征使用扰动函数pr对encoder的输出进行扰动，.

2021-09-08 20:55:06 3235

原创 Style Normalization and Restitution for Generalizable Person Re-identiﬁcation---CVPR2020 论文阅读

由于之前所存在的fully-supervised person re-identiﬁcation (ReID) methods 存在泛化性较差的问题，作者认为解决这一问题的关键是：过滤与身份无关的干扰和学习领域不变的人表示。作者提出了一个风格正则化和恢复模块旨在设计一个更加泛化的行人Re-ID框架，通过风格正则化来过滤掉风格样式变化，然后使用恢复模块来自适应的蒸馏identity-relevant feature从移除掉的信息中，又进一步的使用dual causality loss constrain.

2021-09-08 10:21:46 458

原创 TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment---ICCV2021 论文阅读

创新点token-aware contrastive loss主要是解决不同模态融合后缺少细粒度的对齐通过考虑单词的语法类来计算，由于传统的对比学习通常在对文本中的所有单词和视频中的帧进行聚合后计算loss（如图中L1或L3）标记感知的对比损失仅使用一个词的子集计算，该词的语法类属于一个预定义的集合(例如，名词和动词)，这迫使单个token和与视频对齐（L2）cascade sampling method为训练多模态融合层寻找一小组hard negative examples，

2021-09-06 21:54:13 387

原创 Self-supervised Temporal Discriminative Learning for Video Representation Learning---2020论文阅读

主要是针对于视频中重要的时间线索所提出一个学习框架这篇论文提出了一种基于视频的时间判别学习(VTDL)框架。在没有网络预训练标记数据的情况下，利用相同或不同时间间隔的片段对每个anchor视频生成时间三元组，以增强时间特征表示能力，时间一致增强(TCA)旨在确保增强的positive的时间导数(任何顺序)是不变的，除了一个缩放常数。最后，通过最小化每个Anchor与其增强的positive之间的距离来学习时间区分特征，同时最大化每个anchor与其增强的positive之间的距离以及存储在memor

2021-09-06 21:27:49 448

原创 Cross-Sentence Temporal and Semantic Relations in Video Activity Localisation----ICCV2021论文阅读

目录Video-Sentence AlignmentMatching Score.Multi-Instance Learning.Cross-Sentence Relations MiningTemporal Consistency.Semantic Consistency.Model Training这篇论文的Task是视频定位只有视频文本的对应关系，但是没有ground truth的时间边界，因此是弱监督的现有的弱监督解决方案首先分别定位不同的MoIs，但这不是最

2021-09-04 12:38:08 330

李加贝的博客