- 博客(214)
- 收藏
- 关注
原创 InfoNce损失
LInfoNCE−logexpsimITτ∑k1KexpsimITkτLInfoNCE−log∑k1KexpsimITkτexpsimITτsimITsimIT表示图像III和文本TTT的相似度(例如,可以是余弦相似度)。τ\tauτ是温度超参数,用于控制分布的平滑度。TkTk表示负样本集合(即不匹配的文本集合)。KKK是负样本的数量。
2024-10-25 20:07:01
1031
原创 《Vision-Language Pre-Training with Triple Contrastive Learning》中文校对版
视觉-语言表示学习在很大程度上受益于通过对比损失(例如InfoNCE损失)实现的图像-文本对齐。该对齐策略的成功归因于它能够最大化图像及其匹配文本之间的互信息(MI)。然而,单纯执行跨模态对齐(CMA)会忽视每个模态内部的数据潜力,可能导致表示的质量下降。例如,虽然基于CMA的模型能够在嵌入空间中将图像-文本对紧密映射在一起,但无法确保来自同一模态的相似输入保持接近。当预训练数据存在噪声时,这个问题可能变得更严重。本文提出了一种用于视觉-语言预训练的三重对比学习(TCL)
2024-10-25 12:58:05
929
原创 《Knowledge Graph Enhanced Multimodal Transformer for Image-Text Retrieval》中文校对版
文章汉化系列目录文章目录文章汉化系列目录《知识图谱增强的多模态Transformer用于图文检索》摘要I.引言II.相关工作A. 图文检索B. 粗粒度检索方法C. 细粒度检索方法D. 增强的多模态嵌入方法III. 方法A. 问题表述B. 图像和文本表示1) 图像表示:文本表示:C. 模态内图推理和嵌入1) 视觉图:2) 文本图3) 视觉图推理与嵌入4) 文本推理与嵌入:D. 多模态知识增强多模态Transformer1) 多模态知识图2) MKG增强的多模态TransformerE. 粗粒度和细粒度跨模
2024-10-25 11:31:08
1343
原创 统计前沿论文数据以及代码公开情况
系列论文研读目录文章目录系列论文研读目录论文数据集代码《TransVG: End-to-End Visual Grounding with Transformers》训练使用他人数据集:ReferItGame、Flickr30K Entities、RefCOCO/ RefCOCO+/ RefCOCOghttps://github.com/djiajunustc/TransVG.《DATE: Domain Adaptive Product Seeker for E-co
2024-10-24 16:02:43
391
原创 《Separating the “Chirp” from the “Chat”: Self-supervised Visual Grounding of Sound and Language》中文版
我们提出了DenseAV,这是一种新颖的双编码器定位架构,能够仅通过观看视频来学习高分辨率、语义丰富并且音视频对齐的特征。我们展示了DenseAV可以在没有明确定位监督的情况下,发现单词的“含义”和声音的“位置”。此外,它能够在没有监督的情况下自动发现并区分这两类关联。我们证明了DenseAV的定位能力源自一种新的多头特征聚合操作符,该操作符直接比较密集的图像和音频表示,用于对比学习。相比之下,许多其他系统学习的是“全局”音频和视频表示,无法定位单词和声音。
2024-10-24 14:32:03
922
原创 K3M 深度理解 PPT
具体来说,在交叉注意力Transformer中,每个模态的“key”和“value”传递到另一个模态的注意力块中,进行图像条件的文本注意力和文本条件的图像注意力。比较3个基线的“仅标题噪声”和“仅图像噪声”,随着TNR的增加,模型性能下降了15.1%-43.9%,而随着INR的增加,模型性能下降了2.8%-10.3%,这表明文本信息在其中起着更重要的作用。这是本文K3M模型的框架,分为三大部分,最下面是编码每个模态的单独信息,中间是模态之间的交互,最上面是针对图像模态、文本模态和知识模态的三个预训练任务。
2024-10-23 12:24:33
1104
原创 F1-score
F1-score 在 0 到 1 之间,越接近 1 表明模型在 Precision 和 Recall 方面的表现越好。在这个例子中,模型的 F1-score 为 0.84,表明它在正确识别猫的同时也较好地避免了误报。假设你有一个分类模型在猫狗识别的任务中,目标是识别出所有的猫。是一种常用的评价指标,尤其在不平衡数据集中,能够更好地反映模型的性能。的调和平均数,综合考虑了模型预测的准确性和覆盖率。
2024-10-23 09:55:52
442
原创 论文解读《Order-Agnostic Data Augmentation for Few-Shot Named Entity Recognition》
模型会基于这个顺序进行学习和预测。例如,在生成“Apple”之后,我们计算在“Apple”被识别的条件下识别“Steve Jobs”的概率,最终将所有实体的概率相乘,形成整个句子的实体识别过程。在命名实体识别任务中,我们的目标是识别出句中的实体(即“Apple”和“Tim Cook”),并将它们分类到相应的类别中,例如组织(ORG)和人物(PER)。传统的NER模型在训练中只学习了固定的实体顺序(例如“Apple在前,Tim Cook在后”),这使得当遇到实体顺序发生变化时,模型的表现会下降。
2024-10-22 19:13:14
1039
原创 《Order-Agnostic Data Augmentation for Few-Shot Named Entity Recognition》中文
数据增强(DA)方法已被证明在低资源环境中对预训练语言模型(PLMs)有效,包括少量样本的命名实体识别(NER)。然而,现有的NER DA技术要么对单词进行基于规则的操作,从而破坏句子的语义连贯性,要么利用生成模型进行实体或上下文的替换,这需要大量的标注数据,且与在低资源环境中操作的目标相悖。在本研究中,我们提出了无序数据增强(OADA),这是一种替代解决方案,利用在序列到序列NER方法的数据构建阶段常被忽视的无序特性进行数据增强。
2024-10-22 16:11:02
1208
原创 论文解读《De-noised Vision-language Fusion Guided by Visual Cues for E-commerce Product Search》
在该方法中,MM-LTP通过计算文本Token的重要性得分,并根据学习到的门限剪除不重要的Token,从而减少噪声文本对模型训练的负面影响。这一方法通过动态调整门限值,使得模型能够在电子商务场景中更加准确地捕捉视觉和语言信息的关联,提高检索性能。在电子商务中,视觉-语言多模态模型在产品搜索中起着至关重要的作用。然而,由于电子商务数据通常是自动收集的,图像和文本之间的对齐往往存在噪声和冗余问题,特别是文本描述中包含许多与视觉无关的属性。这种噪声和非视觉描述的属性使得多模态模型在产品搜索任务中的表现不佳。
2024-10-21 20:40:09
1001
原创 RoI Pooling
RoI Pooling(Region of Interest Pooling)是一种常用于目标检测(object detection)中的技术,主要用于将不同大小的候选区域(Region of Interest,RoI)统一到相同的尺寸,方便后续的处理,如分类或边界框回归。RoI Pooling可以从多尺度的特征图中提取RoI区域的信息,并统一到相同的大小,确保不同尺度的目标都能被有效处理。RoI Pooling的核心操作是将输入的RoI(通常是在特征图上对应的矩形区域)划分为固定数量的子区域(例如。
2024-10-21 16:35:18
586
原创 mIoU详解
(mean Intersection over Union,平均交并比)是计算机视觉任务中常用的评估指标,特别是在目标检测和语义分割任务中。它用于衡量模型预测的边界框或分割区域与真实边界框或真实分割区域之间的重叠程度。
2024-10-20 14:49:14
850
原创 T-SNE
T-SNE visualization of visual and textual features” 这句话的意思是将视觉特征(如图像数据)和文本特征(如文本描述或嵌入向量)通过 T-SNE 方法进行降维处理,并以图形的形式进行可视化。通过这种方法,可以更好地理解这些特征在降维空间中的分布,从而发现某些数据的聚类模式或相似性。“T-SNE 可视化视觉和文本特征” 的意思是,将图像(视觉)和文本信息的高维特征,经过 T-SNE 算法降维后,在二维或三维平面上进行图形化展示。
2024-10-20 09:25:19
221
原创 《Knowledge Perceived Multi-modal Pretraining in E-commerce》中文校对版
本文研究了电子商务领域中产品数据的多模态预训练问题.针对图像和文本模态的多模态预训练方法在面对模态缺失和模态噪声这两真实的电子商务场景中多模态产品数据普遍存在的问题时缺乏鲁棒性。为此,本文提出了一种在多模态预训练中引入知识模态的K3M方法,以修正图像和文本模态中的噪声和缺失。该方法具有良好的鲁棒性和鲁棒性。模态编码层提取每个模态的特征。模型交互层能够有效地对多模态的交互进行建模,其中设计了初始交互特征融合模型以保持图像模态和文本模态的独立性,并设计了结构聚合模块以融合图像、文本和知识模态的信息。
2024-10-19 18:23:55
1102
原创 《TransVG: End-to-End Visual Grounding with Transformers》解读
视觉定位(Visual Grounding),也称为指代表达理解,是计算机视觉和自然语言处理领域中的一个重要研究主题。它涉及将自然语言描述与图像中的具体区域相对应。传统方法依赖于复杂的多模态融合模块,如模块化注意力网络或动态图,这些方法通常基于预定义的结构和手动设计的机制,可能导致模型在特定数据集或场景下过拟合。
2024-10-19 11:15:13
781
原创 《VisualSparta: An Embarrassingly Simple Approach to Large-scale Text-to-Image Search》中午校对版
文本到图像的检索是跨模态信息检索中的一项重要任务,在给定文本查询的情况下,从大的且未标记的数据集中检索相关图像。在本文中,我们提出了一种新的VisualSparta(VisualtextSparseTatching)模型,该模型在准确性和效率方面都有显著的改进。VisualSparta的性能优于MSCOCO和Flickr 30K中以前最先进的可伸缩方法。
2024-10-18 22:10:41
1039
原创 《TransVG: End-to-End Visual Grounding with Transformers》中文校对版
在本文中,我们提出了一个整洁而有效的基于Transformer框架的视觉定位,即transVG,解决定位的语言查询到相应的区域到图像上的任务。现有的方法包括两阶段或一阶段的方法,都依赖于一个复杂的模块和人工设计的机制来执行查询推理和多模态融合。然而,融合模块设计中的查询分解、图像场景图等机制的引入,使得模型容易过拟合到特定场景的数据集,限制了视觉-语言上下文之间充分的交互。
2024-10-18 21:02:05
1131
原创 前沿论文创新点集合
全面的实验结果进一步证明了ECLIP的优越性:在没有任何微调的情况下,它在各种现实世界的电子商务任务上实现了对现有最先进方法的实质性改进。(1) 我们提出了ECLIP,一个有效的和简单的多模态表示学习范式在电子商务的情况下。(2)为了实现针对预训练的视觉语言模型的提示工程的自动化,我们提出了一种基于连续提示学习的简单方法,并提供了两种可以处理不同识别任务的实现。(3)我们首次证明了所提出的基于即时学习的方法在大型视觉语言模型的下游迁移学习性能和域转移下的鲁棒性方面优于手工制作的提示和线性探测模型。
2024-10-17 21:11:32
761
原创 前沿论文创新点集合
全面的实验结果进一步证明了ECLIP的优越性:在没有任何微调的情况下,它在各种现实世界的电子商务任务上实现了对现有最先进方法的实质性改进。(1) 我们提出了ECLIP,一个有效的和简单的多模态表示学习范式在电子商务的情况下。(2)为了实现针对预训练的视觉语言模型的提示工程的自动化,我们提出了一种基于连续提示学习的简单方法,并提供了两种可以处理不同识别任务的实现。(3)我们首次证明了所提出的基于即时学习的方法在大型视觉语言模型的下游迁移学习性能和域转移下的鲁棒性方面优于手工制作的提示和线性探测模型。
2024-10-17 21:10:04
833
原创 前沿多模态论文 DATE 解读
PR侧重于从数据库中检索相关产品。PG则侧重于将用户的语言描述与具体产品信息进行关联。这两个过程在提升用户购物体验、优化搜索引擎和推荐系统中起着重要作用。
2024-10-16 21:35:22
390
原创 EI-CLIP 深度理解 PPT
也就是说他们通过硬干预:也就是主动改变模型中某个变量的值,以观察其对其他变量的影响,来得出结论这个变量是不是真正的因,然后消除数据集偏倚,使得模型泛化能力强,数据集偏差就指训练数据未能准确代表目标人群或模型应用时的条件。介绍一下因果学习,和分布外的问题,根据应用场景的不同Causal learning 的最终目的是不同的,其中一个比较重要的目的就是想解决Machine learning的Out-of-Distribution Generalization(OODG)的问题。最后分类分类就变成了第二个公式。
2024-10-16 21:31:27
854
原创 前沿论文创新点集合
(1) 我们提出了ECLIP,一个有效的和简单的多模态表示学习范式在电子商务的情况下。(2)为了实现针对预训练的视觉语言模型的提示工程的自动化,我们提出了一种基于连续提示学习的简单方法,并提供了两种可以处理不同识别任务的实现。(3)我们首次证明了所提出的基于即时学习的方法在大型视觉语言模型的下游迁移学习性能和域转移下的鲁棒性方面优于手工制作的提示和线性探测模型。(1)我们提出了一项关于在下游应用中调整最近提出的视觉语言模型的及时研究,并确定了与部署效率相关的一个关键问题,即,提示工程。
2024-10-15 21:26:37
654
原创 前沿多模态论文 EI-CLIP 解读
通过考虑混杂因素 (Z),我们可以更准确地理解文本和图像之间的关系,避免虚假相关性,从而提高模型的性能和解释能力。
2024-10-15 10:56:14
700
原创 详细解释mAP@10,mAR@10,Prec@10
Prec@10衡量在前10个结果中相关文档的比例。mAP@10是多个查询的平均精确度,反映整体检索性能。mAR@10衡量在前10个结果中找回的相关文档占所有相关文档的比例,反映检索的全面性。这些指标共同提供了对检索系统性能的全面评估,帮助研究者和工程师优化其算法和模型。
2024-10-14 20:53:52
1315
原创 Product1M 深度理解 PPT
然后将得到的特征作为我们检索算法的输入。跨模态的自我监督学习,之前的自我监督学习有单流双流,两种,下面左边是单流的vilt右边是双流的vilbert,但是单流双流的这些方法不是为实例级检索量身定制的,作者展示了它们可能由于网络架构中的设计缺陷和不适当的代理任务而存在缺陷。我们提出了一个现实的问题:如何在给定的大规模弱标注的多模态数据上执行实例级细粒度的产品检索 这个图是比较不同的检索范式,图像级检索往往返回琐碎的结果,因为它不区分不同的实例,而多模态实例级检索更有利于在多模态数据中搜索各种产品。
2024-10-14 20:47:15
1409
原创 《EI-CLIP: Entity-aware Interventional Contrastive Learning for E-commerce Cross-modal Retrieval》中文校对
电子商务中的跨语言-图像模态检索是产品搜索、推荐和营销服务的基础问题。为了克服一般领域中的跨模态检索问题,人们已经进行了广泛的努力。在电子商务中,一种常见的做法是采用预先训练好的模型,对电子商务数据进行微调。该算法虽然简单,但由于忽略了电子商务多模态数据的唯一性,性能并不理想。最近的一些工作[10,72]已经显示了对具有用于处理产品图像的定制设计的通用方法的显著改进。不幸的是,据我们所知,没有一种现有的方法能够解决电子商务语言中的独特挑战。
2024-10-13 10:37:28
800
原创 《De-noised Vision-language Fusion Guided by Visual Cues for E-commerce Product Search》中文校对版
在电子商务应用中,视觉语言多模态Transformer模型在产品搜索中起着举足轻重的作用。成功训练多模态模型的关键在于数据集中图像-文本对的对齐质量。然而,在实践中,数据通常是自动收集的,人工干预最少。因此,图像文本对的对齐远非理想。在电子商务中,这种不一致可能源于产品描述中嘈杂和冗余的非视觉描述性文本属性。为了解决这个问题,我们引入了多模协议指导的学习令牌修剪(MM-LTP)方法。MM-LTP采用令牌修剪,传统上用于计算效率,在多模态模型训练期间执行在线文本清洗。
2024-10-13 08:23:03
783
原创 《DATE: Domain Adaptive Product Seeker for E-commerce》中文校对版
产品检索(PR)和产品定位(PG),旨在分别根据文本查询寻找图像和对象级的产品,为了更好的购物体验近年来引起了极大的兴趣。由于相关数据集的缺乏,我们从淘宝商城和Live两个领域收集了两个大规模的基准数据集,分别包含约474 k和101 k的图像-查询对用于PR,并为PG手动标注每个图像中的对象边界框。由于标注框昂贵且耗时,我们尝试将知识从标注的领域转移到PG的未标注领域,以实现无监督的领域自适应(PG-DA)。提出了一个领域自适应产品搜索框架,将PR和PG看作不同层次的产品搜索问题,以辅助产品的查询。
2024-10-12 19:20:06
899
原创 Product1M 前沿多模态论文解读
通过伪标签的生成和利用,模型能够利用大量未标注的数据进行训练,从而提升其对多种产品的检测能力。这种方法在数据匮乏的情况下尤其有效,能够显著提高模型的泛化能力。
2024-10-12 17:18:14
713
原创 《Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-Modal Pretraining》中
随着电子商务时代顾客需求的多样化,给产品检索行业带来了更多的复杂性。以前的方法要么受到单模态输入或执行有监督图像级产品检索,从而无法适应存在巨大的弱注释的多模态数据的现实生活的情况。在本文中,我们研究了一个更现实的设置,旨在细粒度的产品类别之间进行弱监督的多模态实例级产品检索。为了促进这一具有挑战性的任务的研究,我们贡献了Product1M,一个最大的多模态化妆品数据集为了真实世界的实例级检索。
2024-10-11 18:30:39
1750
原创 Thirty-Eighth AAAI Conference on Artificial Intelligence, AAAI 2024中multi-modal论文汇总(前20)
系列文章目录文章目录系列文章目录一、《A Multi-Modal Contrastive Diffusion Model for Therapeutic Peptide Generation.》治疗肽生成的多模态对比扩散模型。二、《Local-Global Multi-Modal Distillation for Weakly-Supervised Temporal Video Grounding.》弱监督时域视频接地的局部-全局多模态精馏。三、《Learning Multi-Modal Cross-S
2024-10-11 10:39:36
727
原创 前沿论文解读:CARAT
多模态多标签情感识别(MMER)旨在从多种异构模态(如文本、视觉、音频)中识别出多种情感。MMER 的挑战在于如何从不同模态中有效地捕捉到用于多个标签的判别特征。现有研究大多致力于通过多种融合策略将多模态信息整合为统一的表示。然而,这种学习方式忽略了每种模态的特异性,未能有效捕捉不同标签的独立判别特征,同时也难以有效地建模标签和模态之间的依赖关系。
2024-10-10 19:49:52
555
原创 机器学习、深度学习评价指标汇总:TP、TN、FP、FN、AP、mAP、IoU、mAP@3、Prec@10、 Acc@10
真正例 (True Positive, TP)模型正确地将正类(例如,某种疾病存在)预测为正类的实例数量。假正例 (False Positive, FP)模型错误地将负类(例如,某种疾病不存在)预测为正类的实例数量。这通常被称为“误报”。真负例 (True Negative, TN)模型正确地将负类预测为负类的实例数量。假负例 (False Negative, FN)模型错误地将正类预测为负类的实例数量。这通常被称为“漏报”。真正例和真负例反映了模型的正确预测能力。假正例和假负例。
2024-10-10 18:58:12
1475
1
原创 前沿论文 M5Product 组会 PPT
它们可以粗略地分为两类:1)单流模型,其Transformer层共同对视觉和文本输入进行concat操作,例如VL-bert [42],Image-BERT [37],VideoBERT [44],MMT [12],HERO [26],VisualBERT [27]和UNITER [7]。具体来说,在给定的句子中,某些单词会被特殊的[MASK]标记替换,模型的目标是预测这些被掩盖的单词。(1)模态交互:如何通过扩展到大量模态的优雅方法,实现从不同模态之间的单峰,双峰,三峰甚至多模态关系中学习共同表示。
2024-10-09 17:34:42
830
原创 Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-commerce 组会PPT记录
比如输入猴子喜欢吃香蕉,那么输入第一个词是猴子,他和第二个词香蕉的点积很大,然后也就是紫色框的第一行第二列的值很大,那么他再乘以V的时候,会把香蕉那一行的特征拿来的很多放入到最后的输出中,同时最终的输出向量会包含与输入 token 相关的上下文信息,能够捕捉到词语之间的关系。我们第一眼看到了这张图,我们会首先看有一台车,这就是个不随意线索,没有随着我们的意识,是下意识的行为,然后我们发现车之后,才会去想这个车在什么环境中,这就是个随意线索,是我们有意识去主导的事情,就是我们有意识的去观测我们想要的东西。
2024-10-09 10:44:47
856
原创 Slot attention 理解
Slot Attention 的设计目的就是通过竞争性注意力机制和迭代更新策略,使每个 slot 更加专注于不同的输入特征。这种机制使得 slots 不会同时绑定多个不同特征,而是会在多轮迭代中逐渐找到自己最擅长解释的对象,最终实现对输入数据的有效分离。因此,Slot Attention 模块的工作方式本质上就是通过强制 slots 之间竞争,使它们各自找到不同的特征进行绑定,从而避免了一个 slot 同时绑定多个特征的情况。
2024-10-08 22:01:16
650
原创 Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-commerce组会PPT记录
然后经典的里程碑式的模型,transformer,是论文Attention Is ALL You Need的模型,他的原理中自注意力如图所示,首先有T个token,被嵌入到潜空间,然后设置三个矩阵来对嵌入的向量进行空间变换,生成Q,K,V,然后Q与K进行点成,然后除以根号下D,为了减小过大方差。在注意力机制中,我们把随意线索称为查询,query,简称为Q,不随意线索为键,Key,简称为K,然后每一个键都对应一个值成对出现,值,value,简称为V。我们希望通过注意力机制来有偏向性的选择值。
2024-10-08 21:57:24
301
原创 前沿论文创新点集合
(1) 我们提出了ECLIP,一个有效的和简单的多模态表示学习范式在电子商务的情况下。(2)为了实现针对预训练的视觉语言模型的提示工程的自动化,我们提出了一种基于连续提示学习的简单方法,并提供了两种可以处理不同识别任务的实现。(3)我们首次证明了所提出的基于即时学习的方法在大型视觉语言模型的下游迁移学习性能和域转移下的鲁棒性方面优于手工制作的提示和线性探测模型。(1)我们提出了一项关于在下游应用中调整最近提出的视觉语言模型的及时研究,并确定了与部署效率相关的一个关键问题,即,提示工程。
2024-10-07 04:15:00
1691
原创 前沿论文创新点集合
(2)为了实现针对预训练的视觉语言模型的提示工程的自动化,我们提出了一种基于连续提示学习的简单方法,并提供了两种可以处理不同识别任务的实现。(3)我们首次证明了所提出的基于即时学习的方法在大型视觉语言模型的下游迁移学习性能和域转移下的鲁棒性方面优于手工制作的提示和线性探测模型。实验结果表明,我们提出的方法优于以往的方法,达到了最先进的性能。(1)我们提出了一项关于在下游应用中调整最近提出的视觉语言模型的及时研究,并确定了与部署效率相关的一个关键问题,即,提示工程。上,表现出显著的提升。
2024-10-07 04:00:00
648
原创 详解单流Transformer架构中图像/文本/表格/视频/音频经过transformer提取模态特征并生成令牌特征以及CLS到底是什么作用?
经过自注意力和前馈网络处理后,我们得到了图像的高级特征表示 ( H_2 )。这个表示能够捕捉到图像中不同部分之间的关系和重要特征,为后续的任务(如分类或检测)提供了有用的信息。行:表示不同样本或特征位置的特征。列:表示特征的不同维度,反映了图像的高级语义信息。这种结构使得模型在处理图像时能够有效地捕捉和表示复杂的特征关系。自注意力:通过计算特征之间的关系,模型能够关注图像中最重要的区域,从而提升分类性能。前馈网络:通过非线性变换,进一步提炼特征,最终输出每个类别的概率。
2024-10-06 12:47:58
815
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅