多模态or跨模态——文献笔记
文章平均质量分 92
实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。
MT_Joy
某211计算机在读研究僧,bug与不bug,一切随缘
展开
-
Learning with Noisy Correspondencefor Cross-modal Matching(NCR)--文献翻译
NeurIPS 2021摘要跨模态匹配旨在建立两种不同模态之间的对应关系,是跨模态检索和视觉和语言理解等各种任务的基础。尽管近年来已经提出了大量的跨模态匹配方法并取得了显着进展,但几乎所有这些方法都隐含地假设多模态训练数据是正确对齐的。然而,在实践中,这样的假设是极其昂贵的,甚至不可能满足。基于这一观察,我们揭示并研究了跨模态匹配中一个潜在且具有挑战性的方向,称为噪声对应,它可以被视为噪声标签的新范式。与传统的噪声标签主要指类别标签中的错误不同,我们的噪声对应指的是不匹配的配对样本。为了解决这个..原创 2022-04-08 15:55:07 · 2915 阅读 · 3 评论 -
MoCo 论文逐段精读【论文精读】--跟李沐学AI
视频链接:MoCo 论文逐段精读【论文精读】_哔哩哔哩_bilibiliMoCo: CVPR 2020 最佳论文,视觉 + 对比学习的里程碑式的工作对比学习:简单、好用;19年以来,视觉领域乃至整个 ML 领域最火的方向之一;盘活了从17年很卷的CV领域,MoCo是其中的优秀工作之一MoCo:无监督的表征学习工作 在 CV上表现怎么样?分类:逼近了有监督的 baseline检测、分割、人体关键点检测:大幅超越有监督预训练的模型 (ImageNet 上预训练的模型)CV ...原创 2022-04-06 13:57:43 · 3424 阅读 · 0 评论 -
ViT论文逐段精读【论文精读】-跟李沐学AI
视频链接:ViT论文逐段精读【论文精读】_哔哩哔哩_bilibiliViT:过去一年,CV 最有影响力的工作 推翻了 2012 Alexnet 提出的 CNN 在 CV 的统治地位有足够多的预训练数据,NLP 的 Transformer 搬运到 CV,效果很好打破 CV 和 NLP 的壁垒,给 CV、多模态 挖坑ViT效果有多好?CV 任务刷榜paperwithcode网站 霸榜 ImageNet (基于 ViT)和 COCO ,目标检测(Swin Transform...原创 2022-04-05 09:00:45 · 4357 阅读 · 0 评论 -
BERT 论文逐段精读【论文精读】-跟李沐学AI
视频链接:BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibiliBERT: 近 3 年 NLP 最火CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新?1标题 + 作者01:34BERT: Pre-training of Deep ...原创 2022-04-04 10:08:26 · 4495 阅读 · 0 评论 -
Collective Affinity Learning for Partial Cross-Modal Hashing(CALM)--文献翻译
摘要在过去的十年中,已经开发了各种无监督哈希方法用于跨模态检索。然而,在实际应用中,每个模态数据都可能遭受一些缺失样本的影响,这通常是不完整的情况。大多数现有工作假设每个对象都出现在两种模态中,因此它们可能不适用于部分多模态数据。为了解决这个问题,我们提出了一种新颖的集体亲和学习方法(CALM),它集体和自适应地学习锚图,用于在部分多模态数据上生成二进制代码。在 CALM 中,我们首先共同构建特定于模态的二部图,并推导出一个概率模型来计算每个模态的完整数据到锚点的亲和力。理论分析揭示...原创 2022-03-30 10:40:40 · 423 阅读 · 0 评论 -
Online Cross-Modal Hashing for Web Image Retrieval(OCMH)--文献翻译
摘要跨模态哈希(CMH)是一种用于快速检索网络图像数据的有效技术,最近引起了很多关注。然而,传统的 CMH 方法通常应用批量学习来生成哈希函数和代码。它们对于检索通常具有流式传输方式的网络图像效率低下。在线学习可用于 CMH。但是现有的在线哈希方法仍然不能解决两个本质问题:哈希码的高效更新和跨模态相关性分析。在本文中,我们提出了在线跨模式哈希(OCMH),它可以通过学习共享潜在代码(SLC)有效地解决上述两个问题。在 OCMH 中,哈希码可以用永久 SLC 和动态传输矩阵来表示。因此,哈希码的低...原创 2022-03-22 18:07:45 · 1330 阅读 · 0 评论 -
Latent Semantic Sparse Hashing for Cross-ModalSimilarity Search(LSSH)--文献翻译
SIGIR 2014论文链接:Proceedings of the 37th international ACM SIGIR conference on Research & development in information retrieval | ACM Conferences摘要基于哈希的相似性搜索方法在具有大量文本和图像的大型多媒体数据库上进行有效和高效的跨模态检索已经引起了相当大的关注。跨模态哈希的核心问题是如何在哈希函数学习过程中有效地构建本质上异构...原创 2022-03-20 09:37:25 · 915 阅读 · 1 评论 -
Set and Rebase: Determining the Semantic Graph Connectivity for UnsupervisedCross Modal Hashing-文献笔记
国际人工智能联合会议(International Joint Conference on Artificial Intelligence, 简称为IJCAI)是人工智能领域中最主要的学术会议之一。摘要无监督跨模态哈希的无标签性质阻碍了模型利用精确的语义数据相似性。现有研究通常通过原始特征空间中的启发式几何先验来模拟语义。然而,这会给模型带来很大的偏差,因为原始特征不能完全代表底层的多视图数据关系。为了解决上述问题,在本文中,我们提出了一种新的无监督散列方法,称...原创 2022-01-27 11:44:16 · 1224 阅读 · 0 评论 -
Label Enhancement for Label Distribution Learning--文献笔记
IEEE(2021)摘要标签分布比单标签注释和多标签注释都更通用。它涵盖了一定数量的标签,代表每个标签描述实例的程度。通过标签分布标记的实例的学习过程称为标签分布学习(LDL)。不幸的是,由于难以直接获得标签分布,许多训练集只包含简单的逻辑标签而不是标签分布。为了解决这个问题,一种方法是利用特征空间的拓扑信息和标签之间的相关性,从训练集中的逻辑标签中恢复标签分布。这种从逻辑标签中恢复标签分布的过程被定义为标签增强(LE),它增强了训练集中的监督信息。本文提出了一种新的 LE 算法...原创 2022-01-17 11:23:42 · 1320 阅读 · 0 评论 -
A Study of the Robustness of KNN ClassifiersTrained Using Soft Labels--论文阅读笔记
摘要监督学习模型最常使用清晰标签进行分类器训练。当存在重叠类时,清晰的标签无法捕获数据特征。在这项工作中,我们尝试比较使用软标签和硬标签来训练 K 最近邻分类器的学习。我们提出了一种基于数据的模糊聚类和聚类原型的模糊重新标记来生成软标签的新技术。在五个数据集上进行了实验,以比较使用不同类型的软标签学习的分类器和使用清晰标签学习的分类器。结果表明,与使用清晰标签学习相比,使用软标签学习对标签错误的鲁棒性更强。还发现所提出的从数据中查找软标签的技术可以在所研究的大多数数据集中进行更稳健的训练。1...原创 2022-01-14 18:52:54 · 2142 阅读 · 0 评论 -
Momentum Contrast for Unsupervised Visual Representation Learning--w文献翻译和笔记
用于跨模式检索的自监督对抗哈希网络摘要由于深入学习的成功,跨模式检索最近取得了显著的进展。然而,仍然存在着一个关键的瓶颈:如何弥合情态差异,进一步提高检索的准确性。在本文中,我们提出了一种自我监督的对抗性散列(SSAH)方法,它是早期尝试将对抗性学习以自我监督的方式纳入跨模式散列的方法之一。这项工作的主要贡献是利用两个敌对网络来最大化不同方式之间的相互关系和一致性。此外,我们还利用自监督语义网络以多标签注释的形式发现高级语义信息。这些信息指导了特征学习过程,并保持了公共需求空间和汉明斯空间.....原创 2021-12-28 14:24:38 · 306 阅读 · 0 评论 -
Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval--文献翻译和笔记
用于跨模式检索的自监督对抗哈希网络摘要由于深入学习的成功,跨模式检索最近取得了显著的进展。然而,仍然存在着一个关键的瓶颈:如何弥合情态差异,进一步提高检索的准确性。在本文中,我们提出了一种自我监督的对抗性散列(SSAH)方法,它是早期尝试将对抗性学习以自我监督的方式纳入跨模式散列的方法之一。这项工作的主要贡献是利用两个敌对网络来最大化不同方式之间的相互关系和一致性。此外,我们还利用自监督语义网络以多标签注释的形式发现高级语义信息。这些信息指导了特征学习过程,并保持了公共需求空间和汉明斯空间...原创 2021-12-28 14:20:03 · 2418 阅读 · 0 评论 -
多模态分析数据集(Multimodal Dataset)整理
这里整理一下平时所用的多模态数据集以备之用,主要分为多模态情感分析数据集 多模态问答数据集 多模态检索(匹配)数据集后面会不断地去添加,也希望能够帮到其他人,欢迎大家补充。【0】.多模态以及其他方向如何入门或者查找数据集?看到评论区有很多小伙伴对多模态方面不知道怎么入门,不知道使用哪些数据集,最简单的方法是找一篇最近最新的相关方向的多模态论文,通过related work可以了解这个方向的发展,通过experiment了解这个方向比较受欢迎的一些数据集。论文或者数据集查询可以百度,可以go原创 2021-12-28 14:11:07 · 5706 阅读 · 1 评论 -
Fine-grained Cross-modal Alignment Networkfor Text-Video Retrieval--文献阅读翻译
题目:Fine-grained Cross-modal Alignment Networkfor Text-Video Retrieval作者:Ning Han Hunan University ninghan@hnu.edu.cn Jingjing Chen∗ Fudan University chenjingjing@fudan.edu.cn Guangyi Xiao Hunan University guangyi.xiao@gma...原创 2021-12-27 08:00:22 · 1627 阅读 · 0 评论 -
MAE 论文逐段精读【论文精读】(深度学习论文篇)
源于沐神:MAE 论文逐段精读【论文精读】 (bilibili.com)MAE 2021.11.11提交 arxiv知乎 百万 view; Reddit or Twitter 讨论不多MAE 很新 --> 如何在读比较新的文章 获取一些新的研究思路?和之前精读论文的关系?Transformer一个纯基于注意力机制的编码器和解码器表现比 RNN 架构好,在机器翻译任务BERT使用 一个 Transfor...原创 2021-12-22 16:28:10 · 5199 阅读 · 0 评论 -
CLIP Learning Transferable Visual Models From Natural Language Supervision (文本和图像的对比学习)--文献翻译和笔记
论文链接:[2103.00020] Learning Transferable Visual Models From Natural Language Supervision (arxiv.org)ICML2021(机器学习顶级会议)摘要最先进的计算机视觉系统被训练来预测一组固定的预定目标类别。这种受限制的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何其他可视化概念。直接从关于图像的原始文本中学习是一个很有前途的选择,它利用了更广泛的监督来源。我们证...原创 2021-12-21 16:03:02 · 2247 阅读 · 0 评论 -
Masked Autoencoders Are Scalable Vision Learners(屏蔽自编码器是可扩展的视觉学习器)--文献翻译和笔记
MAE的方法比较简单:对输入图片进行随机块的mask,然后对mask块中的像素进行重构。核心设计主要是源于两点。 第一,设计了非对称的编码器和解码器架构,其中编码器仅对没有进行mask的区域进行编码,解码器是轻量级的,能够重构原始的图片。 第二,如果对图片中绝大多数的区域进行mask,比如75%,就会得到一个很有意义的自监督任务。更加有效地训练大模型,如训练速度提升3倍 在ViT-Huge的模型中仅仅使用100W的数据就能得到(87.8)的准确率。在下游任务进行迁移学习的效果优于有监督的预训练。原创 2021-12-20 10:58:05 · 1845 阅读 · 0 评论 -
文献翻译和笔记--CHEF:CHEF: Cross-Modal Hierarchical Embeddings for Food Domain Retrieval(用于食物域检索的跨模态分层嵌入)
文献下载地址:CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval| Proceedings of the AAAI Conference on Artificial Intelligence 2021AAAI中国计算机学会CCF的A类国际学术会议摘要 尽管有大量的多模态数据,例如图像-文本对,但在理解单个实体及其在这些数据实例的构建中的不同角色方面几乎没有努力。在这项工作中,我...原创 2021-12-11 17:13:24 · 996 阅读 · 0 评论 -
文献翻译和笔记--Cross-Modal Contrastive Learning for Text-to-Image Generation(用于文本到图像生成的跨模态对比学习)
CVPR2021文献下载:CVPR 2021 Open Access Repository摘要文本到图像合成系统的输出应该是连贯、清晰、逼真的场景,对其条件文本描述具有高度的语义保真度。我们的跨模态对比生成对抗网络 (XMC-GAN) 通过最大化图像和文本之间的互信息来解决这一挑战。它通过多个对比损失来实现这一点,这些损失捕获了模态间和模态内的对应关系。 XMC-GAN 使用注意力自调制生成器,它强制执行强文本-图像对应,以及一个对比判别器,作为对比学习的评论家和特征编...原创 2021-12-09 09:09:51 · 1690 阅读 · 0 评论 -
Learning Cross-Modal Retrieval with Noisy Labels--文献笔记和翻译
CVPR(2021)摘要最近,在深度多模态学习的帮助下,跨模态检索正在兴起。然而,即使对于单模态数据,收集大规模标注良好的数据也是昂贵且耗时的,更不用说来自多种模态的额外挑战。虽然众包注释,例如亚马逊的 Mechanical Turk,可以用来降低标签成本,但导致非专家注释在标签中不可避免地产生噪音。为了应对这一挑战,本文提出了一种通用的多模态鲁棒学习框架 (MRL),用于使用多模态噪声标签进行学习,以减轻噪声样本并同时关联不同的模态。具体来说,我们提出了一种鲁棒聚类损失(RC...原创 2021-12-07 11:14:59 · 1030 阅读 · 0 评论 -
CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis--文献笔记和翻译
一篇来自ACM MM2020年关于跨模态-bert模型的文献ACMMM:ACM Multimedia Conference 领域顶级国际会议,全文的录取率极低,但Poster比较容易。多媒体技术,数据压缩.文献下载地址:CM-BERT | Proceedings of the 28th ACM International Conference on Multimedia摘要多模态情感分析是一个新兴的研究领域,旨在使机器识别,解释和表达情...原创 2021-11-30 10:51:02 · 1907 阅读 · 1 评论 -
Cross Modal Compression: Towards Human-comprehensibleSemantic Compression 论文笔记
需要提前了解的知识点:跨模态压缩是一种面向多种媒体数据的语义压缩框架,它将图像,视频等高语义冗余的数据借助跨模态翻译模型转为文本,语义图,素描图等低语义冗余的数据。 这种低语义冗余的数据具有码率低和人类可理解等特点,实现了极高的压缩比,同时还可以在不解压的情况下实现语义监督。码率码流(Data Rate)是指视频文件在单位时间内使用的数据流量,也叫码率或码流率,通俗一点的理解就是取样率,是视频编码中画面质量控制中最重要的部分,一般我们用的单位...原创 2021-11-16 20:03:58 · 538 阅读 · 2 评论