论文
文章平均质量分 87
醒了就刷牙
这个作者很懒,什么都没留下…
展开
-
论文解读:CARAT P3
好的,下面我通过一个简单的例子,来帮助理解这个跨模态特征融合的过程,特别是涉及到样本洗牌和模态洗牌(Sample-wise Shuffle 和 Modality-wise Shuffle)。假设情景文本模态:例如,“愤怒”和“快乐”的情感描述。视觉模态:例如,图像中展现的情绪(“愤怒”面部表情和“快乐”面部表情)。音频模态:例如,语音中的情绪表达(“愤怒”的语气和“快乐”的语调)。我们希望通过跨模态特征融合来增强情感识别的表现。步骤 1:堆叠模态特征假设我们有3个样本(即 ( B = 3 ))和。原创 2024-11-13 20:49:13 · 224 阅读 · 0 评论 -
论文解读:CARAT
在这里,Frobenius范数的作用是为重构损失提供一种精确且可计算的度量标准,通过最小化该范数值,确保特征向量能够有效重构并保留原始信息。原创 2024-11-12 22:02:23 · 489 阅读 · 0 评论 -
《Multi-modal Summarization for Asynchronous Collection of Text, Image, Audio and Video》简要
随着互联网多媒体数据传输的快速增加,来自文本、图像、音频和视频的多模态摘要(MMS)变得愈加重要。在本研究中,我们提出了一种提取式多模态摘要方法,该方法能够根据与特定主题相关的文档、图像、音频和视频集合自动生成文本摘要。关键思想是弥合多模态内容之间的语义差距。对于音频信息,我们设计了一种选择性使用其转录文本的方法。对于视觉信息,我们通过神经网络学习文本和图像的联合表示。最后,考虑到所有多模态方面,我们通过预算化优化子模函数,最大化摘要的突出性、非冗余性、可读性和覆盖度,从而生成文本摘要。原创 2024-11-11 21:58:31 · 602 阅读 · 0 评论 -
《VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text》中文校对版
我们提出了一种框架,利用无卷积的Transformer架构从未标注数据中学习多模态表示。具体来说,我们的VideoAudio-Text Transformer(VATT)以原始信号作为输入,并提取出足够丰富的多模态表示,能够为各种下游任务带来显著提升。我们从头开始,通过多模态对比损失对VATT进行端到端训练,并通过视频动作识别、音频事件分类、图像分类和文本-视频检索等下游任务来评估其性能。此外,我们研究了一种模态无关的单一骨干Transformer,通过在三种模态之间共享权重来实现。原创 2024-11-11 01:00:00 · 1983 阅读 · 0 评论 -
GAT详解带例子
层数:定义 GAT 的层数,如 2 层。第一层捕获近邻的特征,第二层捕获更远节点的特征。注意力头:定义多头注意力(如 8 个头),以增强信息采集的多样性。通过 GAT,模型可以自动学习到品牌和产品类型之间的共识关系。这种方法适合应用在电商知识图谱、产品推荐等场景中,有助于建立品牌与其主打产品类别的关联。原创 2024-11-09 17:34:22 · 806 阅读 · 0 评论 -
《Scene Graph to Image Synthesis via Knowledge Consensus》简要
本文研究了仅基于场景图的图到图像生成问题,旨在解开知识图与图像之间隐含的语义关系。尽管大多数现有研究依赖繁琐的辅助信息(如对象布局或分割掩码),探索在有限监督下模型的泛化能力也很有意义,这样可以避免额外的跨模态对齐。为应对这一挑战,我们深入探讨了对抗生成过程中的因果关系,并推导出一种新的原则,以实现目标分布和模型分布对齐的同时进行语义解耦。该原则被命名为知识共识,它明确描述了观察到的图像、图语义和隐藏的视觉表示之间的三角因果依赖关系。知识共识还定义了一种新的图到图像生成框架,通过若干对抗优化目标来实现。原创 2024-11-08 10:08:41 · 596 阅读 · 0 评论 -
《Consensus Graph Representation Learning for Better Grounded Image Captioning》简要
当代视觉描述生成模型常常出现“幻觉”对象,即生成的描述中包含场景中实际上不存在的对象,这通常是由于视觉误分类或过度依赖先验信息,导致视觉信息和目标词汇之间的语义不一致。最常见的解决方法是鼓励描述生成模型动态地将生成的对象词汇或短语与图像的适当区域进行链接,即“基于图像的描述生成”(GIC)。然而,GIC 利用一个辅助任务(对象定位),并未解决对象幻觉的关键问题,即语义不一致。在本文中,我们从一个新的角度出发:利用视觉和语言模态之间的语义一致性。原创 2024-11-08 09:54:43 · 606 阅读 · 0 评论 -
《CIDEr: Consensus-based Image Description Evaluation》简要
自动生成描述图像的句子一直是计算机视觉和自然语言处理领域的长期挑战。随着物体检测、属性分类、动作识别等方面的进展,学术界对该领域的兴趣重新高涨。然而,评估生成描述的质量仍然是一个难题。我们提出了一种新的基于人类共识的图像描述评估范式。该范式包括三个主要部分:一种基于三元组的新方法,用于收集人类标注来衡量共识;一种新的自动化评价指标CIDEr,用于捕捉共识;以及两个新数据集PASCAL-50S和ABSTRACT-50S,每个图像包含50条描述句子。原创 2024-11-07 21:51:32 · 278 阅读 · 0 评论 -
数据集整理
这个增强版数据集为图像中的每个描述性短语(例如“穿红色衬衫的女人”)标注了对应的图像区域(bounding boxes),实现了更精确的图像-文本对齐。该数据集主要用于训练和评估模型生成图像描述的能力,也为图像和文本的跨模态理解(如图像检索、文本检索)提供了丰富的数据支持。物体标注不仅包括常见的物品(如“人”、“车”、“树”等),还包含了场景中的细节物体(如“杯子上的图案”或“地上的叶子”)。每张图像展示了日常生活中常见的物体,并且这些物体被置于真实的、复杂的背景环境中,例如街道、室内、餐厅等场景。原创 2024-11-07 21:39:15 · 742 阅读 · 0 评论 -
论文解读:《Cross-modal Scene Graph Matching for Relationship-aware Image-Text Retrieval》
图像包含了物体和物体之间的关系,比如“一个女人骑在马背上”。要使计算机将两者匹配起来,我们需要设计一种方法,使得图像和文本都能够以相似的方式表达出这些对象(如“女人”“马”“海滩”)及其关系(如“骑在…这句话的意思是,由于图像和文本属于不同的模态(即图像是视觉数据,而文本是语言数据),它们在特征和结构上具有很大差异,因此在机器学习中,难以直接将它们统一起来进行表示。这一挑战在于如何设计一种方法,让计算机能够有效地理解并融合这两种数据类型,使它们形成一致的、综合的表示,便于进一步的匹配或检索。原创 2024-11-06 21:07:15 · 138 阅读 · 0 评论 -
论文解读 P2《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》
这段话描述了知识检索技术的演变:从早期简单的基于相似性的匹配方法,发展到使用深度学习模型进行更复杂的、可学习的检索,再到采用先进的预训练语言模型,进一步提高了知识整合的范围和效率。原创 2024-11-06 11:38:36 · 874 阅读 · 0 评论 -
论文解读:《Consensus-Aware Visual-Semantic Embedding for Image-Text Matching》
场景图生成是一种计算机视觉任务,旨在将图像中的物体、它们之间的关系和场景的上下文信息以图形的形式表示出来。物体(Nodes): 场景中存在的物体,例如人、动物、家具等。关系(Edges): 物体之间的关系,比如“在”、“旁边”、“持有”等。属性(Attributes): 物体的特征,如颜色、大小、状态等。物体检测: 首先识别图像中的各个物体。关系识别: 识别这些物体之间的空间或语义关系。图结构构建: 将物体和关系组织成一个图结构,通常是一个有向图或无向图。应用场景视觉问答: 理解和回答与图像相关的问题。原创 2024-11-04 22:06:21 · 490 阅读 · 0 评论 -
《Consensus-Aware Visual-Semantic Embedding for Image-Text Matching》中文校对版
图文匹配在连接视觉与语言方面起着核心作用。现有的大多数方法仅依赖图文实例对来学习其表示,从而利用其匹配关系并进行相应的对齐。这类方法仅利用了实例对数据中的表面关联,而未考虑任何外部的常识知识,这可能限制其推理图文之间高级关系的能力。在本文中,我们提出了一种共识感知的视觉-语义嵌入(CVSE)模型,将共识信息,即两种模态共享的常识知识,引入到图文匹配中。具体来说,通过计算图像字幕语料库中语义概念的统计共现关系并部署构建的概念相关图来生成共识感知概念(CAC)表示来利用共识信息。原创 2024-11-04 15:19:59 · 2435 阅读 · 0 评论 -
知识图谱与多模态学习的关系研究综述P5(《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》中文校对)
文章汉化系列目录文章目录文章汉化系列目录VI 挑战与机遇VI-A MMKG的构建与获取VI-B KG4MM任务VI-C MM4KG任务VI-D 大型语言模型VII 结论VI 挑战与机遇 MMKGs与传统KG的目标是缓解各种任务中长尾知识稀缺的问题,这一问题反映了现实生活中高频共现和人类经验的模式。目前的研究假设,假如拥有一个无限扩展的MMKG,就可以涵盖几乎所有相关的世界知识,足以有效地应对所有多模态挑战。然而,仍存在一些关键问题:我们如何获取理想的多模态知识?理想的MMKG应具备什么特征,能否精原创 2024-11-03 01:25:21 · 764 阅读 · 0 评论 -
知识图谱与多模态学习的关系研究综述P4(《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》中文校对)
MMEE同时分析文本数据(如句子或段落)原创 2024-11-03 01:23:58 · 590 阅读 · 0 评论 -
论文解读:MKVSE P2 : Multimodal Knowledge Enhanced Visual-semantic Embedding for Image-text Retrieval P2
多模态知识图的定义多模态:指包含不同类型数据(如文本、图像、音频等)的信息源。多模态知识图集成了这些不同模态的信息,通过构建一个图结构,将多种模态的数据关联起来。知识图:是一种图结构,其中节点表示实体或概念,边表示这些节点之间的关系。知识图可以编码结构化信息,例如产品、用户、标签及其相互关联。多模态知识图的构建节点和关系:在该方法中,知识图的节点包括不同类型的实体,如用户、商品、属性标签等。边则表示实体之间的多种关系,例如用户对商品的喜好、商品的视觉特征与文本描述之间的关联等。多模态信息整合。原创 2024-11-02 17:25:23 · 916 阅读 · 0 评论 -
《Cross-modal Scene Graph Matching for Relationship-aware Image-Text Retrieval》中文校对版
自然场景的图像-文本检索一直是一个热门的研究主题。由于图像和文本是异质的跨模态数据,其中一个关键挑战是如何学习综合且统一的表示来表达多模态数据。一幅自然场景图像主要涉及两种视觉概念,即对象及其关系,这两者对图像-文本检索同样重要。因此,一个好的表示应该同时考虑这两者。在许多计算机视觉(CV)和自然语言处理(NLP)任务中,场景图在描述复杂自然场景方面取得了最近的成功,因此我们提出用两种场景图来表示图像和文本:视觉场景图(VSG)和文本场景图(TSG),每种场景图都被用于共同表征相应模态中的对象和关系。原创 2024-11-02 17:24:50 · 740 阅读 · 0 评论 -
论文解读《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》P1
语义网社区”指的是从事语义网(Semantic Web)相关研究、开发和应用的一群学者、技术人员、开发者以及企业和组织。语义网社区的关注点主要集中在如何使得网络上的数据能够被理解和处理,通过标准化的数据格式和语义标记,使得机器可以更有效地处理和互通信息。语义网的核心思想是为网络上的内容添加结构化的语义信息,从而让机器能够“理解”数据的含义,而不仅仅是字符串或文本。这个社区的研究内容包括知识图谱、资源描述框架(RDF)、本体论(Ontology)、Web本体语言(OWL)、以及数据互操作性等领域。原创 2024-11-01 20:25:03 · 750 阅读 · 0 评论 -
知识图谱与多模态学习的关系研究综述P3(《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》中文校对)
给定视觉图像。原创 2024-11-01 01:15:00 · 880 阅读 · 0 评论 -
知识图谱与多模态学习的关系研究综述P2(《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》中文校对)
文章汉化系列目录文章目录文章汉化系列目录IV. 基于知识图谱驱动的多模态学习任务A. 理解与推理任务视觉问答知识检索知识表示知识感知模态交互知识感知的答案确定视觉问题生成视觉对话IV. 基于知识图谱驱动的多模态学习任务本节探讨了知识图谱(KGs)在提升多模态学习任务中的作用。作为重要的符号知识载体,知识图谱为需要丰富背景知识的多种任务提供支持,包括但不限于生成、推理、理解、分类、检索和预训练。通过在统一框架下呈现系统的分类结构,我们明确了这些方法的核心方面,以增强领域理解并指导未来研究。A. 理原创 2024-10-31 21:00:03 · 600 阅读 · 0 评论 -
知识图谱与多模态学习的关系研究综述P1(《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》中文校对)
知识图谱(KGs)在推动各种人工智能应用中发挥着关键作用,语义网社区对多模态维度的探索则为创新开辟了新途径。在本次综述中,我们审慎地回顾了300多篇文章,聚焦于两个主要的知识图谱相关研究方向:一是知识图谱驱动的多模态(KG4MM)学习,即知识图谱支持多模态任务;二是多模态知识图谱(MM4KG),将知识图谱研究扩展至多模态知识图谱(MMKG)领域。我们首先定义了知识图谱和多模态知识图谱,并探讨了它们的构建进展。原创 2024-10-31 13:50:16 · 2418 阅读 · 0 评论 -
《Counterfeiting Scalable Detection Image Based System for E-commerce》中文校对版
电子商务中的假冒问题通过本论文所提出的专门大型反向图像搜索引擎 e-CoS 得到了解决,该引擎基于无服务器架构,具有高性能。该系统在在线假冒检测领域进行了测试,并取得了令人鼓舞的结果。要推广该解决方案,需要电子商务各方前所未有的合作与信息共享,其中公众将发挥关键作用。随着现代消费者日益关注伦理问题,以及假冒带来的巨大负面社会和经济影响,这种大规模应用的前景变得可能。原创 2024-10-30 20:37:04 · 853 阅读 · 0 评论 -
FashionKLIP 组会PPT
表1中的主要实验结果所示,FashionKLIP模型在各项指标上均显著超越了现有SOTA模型,特别是在R@1指标上,FashionKLIP-B甚至大幅超越了使用多模态融合编码器实现更统一表示学习的方法,如CommerceMM(Yu等人,2022)。对于输入的文本,首先进行概念提取,然后进行知识图谱的构建,多模态知识图谱中存在的概念就不用进行处理,没有存在的概念就需要更新。之前的电商领域的图像-文本检索,都存在两个问题,一个是细粒度对齐问题,就是图像和文本在细节上可能不一致,影响精确匹配。原创 2024-10-29 21:27:35 · 332 阅读 · 0 评论 -
论文解读:MKVSE P1: Multimodal Knowledge Enhanced Visual-semantic Embedding for Image-text Retrieval
而不是将文本词汇和图像对象放在同一个矩阵中。原创 2024-10-29 21:09:40 · 913 阅读 · 0 评论 -
论文解读 FashionKLIP: Enhancing E-Commerce Image-Text Retrieval with Fashion Multi-Modal
通过CVA机制,FashionKLIP不仅在高层次上理解了“蓝色棉质短袖T恤”是一个T恤,还在细节层面捕捉了“蓝色”和“棉质”的特性。这样可以使模型在跨模态检索时,不仅找到相关的图片,还能确保图片中包含所描述的具体细节。原创 2024-10-28 21:10:00 · 952 阅读 · 0 评论 -
《FashionViL: Fashion-Focused Vision-and-Language Representation Learning》中文校对版
大规模视觉-语言(V+L)表示学习的预训练已被证明在提升各种下游V+L任务上非常有效。然而,在时尚领域,现有的V+L方法存在不足,因为它们忽略了时尚V+L数据和下游任务的独特特性。在本研究中,我们提出了一个专注于时尚的V+L表示学习框架,称为FashionViL。该框架包含两个专为时尚V+L数据设计的新颖预训练任务,以充分利用时尚数据的两个内在属性。首先,与其他领域的V+L数据点仅包含单一图文对相比,时尚领域可能包含多张图片。原创 2024-10-28 00:15:00 · 2027 阅读 · 0 评论 -
《Contrastive Language-Image Pre-Training with Knowledge Graphs》中文校对版
近年来,大规模预训练框架快速发展,能够以统一的形式提取多模态表示,并在迁移到下游任务时取得了显著性能。然而,现有方法主要集中在简单的图文对预训练上,而忽视了来自不同模态的概念之间的语义关联。本文提出了一种基于知识的预训练框架,称为Knowledge-CLIP,它将语义信息注入到广泛使用的CLIP模型[38]中。通过在预训练过程中引入基于知识的目标,并利用不同类型的知识图谱作为训练数据,我们的模型能够在视觉和语言中实现更高质量的语义对齐表示,并增强跨场景和模态的推理能力。原创 2024-10-27 00:15:00 · 975 阅读 · 0 评论 -
《FashionKLIP: Enhancing E-Commerce Image-Text Retrieval with Fashion Multi-Modal》中文校对版
图像-文本检索是多模态领域的核心任务,吸引了研究界和工业界的广泛关注。最近,视觉-语言预训练(VLP)模型的迅速发展大大提升了跨模态检索的性能。然而,不同模态间对象的细粒度交互还远未完善。在电子商务领域,这一问题更加严重,因为该领域缺乏足够的训练数据和细粒度的跨模态知识。为了解决这一问题,本文提出了一种新的增强知识的电子商务VLP模型——FashionKLIP。我们首先从大规模的电子商务图像-文本数据中自动建立多模态概念知识图谱,然后将这些先验知识注入VLP模型,以在概念层次上实现跨模态对齐。原创 2024-10-27 00:15:00 · 1510 阅读 · 0 评论 -
三元组的可信度
这里的“可信度”(credibility)可以理解为判断一个三元组(实体、关系、目标实体)是否合理和真实的可能性。通过这种评估,模型能够识别和验证知识图谱中的正确关系,并提升多模态表示的准确性。此时模型通过计算得分发现这个三元组的可信度较低,即得分较高,因为“电子产品”通常不会归属于“服装”类别。通过这种方式,LPM 能够有效地评估三元组的合理性,并在多模态学习中增强知识图谱的准确性和鲁棒性。是一个可信度较高的关系,表示该三元组符合知识图谱中的逻辑,是一个正确的关系。如果这个得分较低,意味着。原创 2024-10-26 10:44:55 · 292 阅读 · 0 评论 -
《MKVSE: Multimodal Knowledge Enhanced Visual-semantic Embedding for Image-text Retrieval》中文校对版
文章汉化系列目录文章目录文章汉化系列目录摘要1 引言2 相关工作2.1 图像-文本检索2.2 基于多模态图的深度学习2.3 多模态知识增强深度学习3 多模态知识增强视觉-语义嵌入3.1 全局嵌入3.1.1 图像的全局嵌入3.1.2 文本的全局嵌入3.2 多模态知识图3.2.1 实体3.2.2 关系3.2.3 实体的表示3.3 多模态图卷积网络3.3.1 模态内关系推理3.3.2 跨模态关系推理3.4 嵌入增强3.5 目标函数4 实验4.1 数据集4.2 实验设置4.2.1 评估协议4.2.2 实现细节原创 2024-10-26 00:15:00 · 397 阅读 · 0 评论 -
《Vision-Language Pre-Training with Triple Contrastive Learning》中文校对版
视觉-语言表示学习在很大程度上受益于通过对比损失(例如InfoNCE损失)实现的图像-文本对齐。该对齐策略的成功归因于它能够最大化图像及其匹配文本之间的互信息(MI)。然而,单纯执行跨模态对齐(CMA)会忽视每个模态内部的数据潜力,可能导致表示的质量下降。例如,虽然基于CMA的模型能够在嵌入空间中将图像-文本对紧密映射在一起,但无法确保来自同一模态的相似输入保持接近。当预训练数据存在噪声时,这个问题可能变得更严重。本文提出了一种用于视觉-语言预训练的三重对比学习(TCL)原创 2024-10-25 12:58:05 · 929 阅读 · 0 评论 -
《Knowledge Graph Enhanced Multimodal Transformer for Image-Text Retrieval》中文校对版
文章汉化系列目录文章目录文章汉化系列目录《知识图谱增强的多模态Transformer用于图文检索》摘要I.引言II.相关工作A. 图文检索B. 粗粒度检索方法C. 细粒度检索方法D. 增强的多模态嵌入方法III. 方法A. 问题表述B. 图像和文本表示1) 图像表示:文本表示:C. 模态内图推理和嵌入1) 视觉图:2) 文本图3) 视觉图推理与嵌入4) 文本推理与嵌入:D. 多模态知识增强多模态Transformer1) 多模态知识图2) MKG增强的多模态TransformerE. 粗粒度和细粒度跨模原创 2024-10-25 11:31:08 · 1343 阅读 · 0 评论 -
统计前沿论文数据以及代码公开情况
系列论文研读目录文章目录系列论文研读目录论文数据集代码《TransVG: End-to-End Visual Grounding with Transformers》训练使用他人数据集:ReferItGame、Flickr30K Entities、RefCOCO/ RefCOCO+/ RefCOCOghttps://github.com/djiajunustc/TransVG.《DATE: Domain Adaptive Product Seeker for E-co原创 2024-10-24 16:02:43 · 391 阅读 · 0 评论 -
K3M 深度理解 PPT
具体来说,在交叉注意力Transformer中,每个模态的“key”和“value”传递到另一个模态的注意力块中,进行图像条件的文本注意力和文本条件的图像注意力。比较3个基线的“仅标题噪声”和“仅图像噪声”,随着TNR的增加,模型性能下降了15.1%-43.9%,而随着INR的增加,模型性能下降了2.8%-10.3%,这表明文本信息在其中起着更重要的作用。这是本文K3M模型的框架,分为三大部分,最下面是编码每个模态的单独信息,中间是模态之间的交互,最上面是针对图像模态、文本模态和知识模态的三个预训练任务。原创 2024-10-23 12:24:33 · 1104 阅读 · 0 评论 -
F1-score
F1-score 在 0 到 1 之间,越接近 1 表明模型在 Precision 和 Recall 方面的表现越好。在这个例子中,模型的 F1-score 为 0.84,表明它在正确识别猫的同时也较好地避免了误报。假设你有一个分类模型在猫狗识别的任务中,目标是识别出所有的猫。是一种常用的评价指标,尤其在不平衡数据集中,能够更好地反映模型的性能。的调和平均数,综合考虑了模型预测的准确性和覆盖率。原创 2024-10-23 09:55:52 · 442 阅读 · 0 评论 -
论文解读《Order-Agnostic Data Augmentation for Few-Shot Named Entity Recognition》
模型会基于这个顺序进行学习和预测。例如,在生成“Apple”之后,我们计算在“Apple”被识别的条件下识别“Steve Jobs”的概率,最终将所有实体的概率相乘,形成整个句子的实体识别过程。在命名实体识别任务中,我们的目标是识别出句中的实体(即“Apple”和“Tim Cook”),并将它们分类到相应的类别中,例如组织(ORG)和人物(PER)。传统的NER模型在训练中只学习了固定的实体顺序(例如“Apple在前,Tim Cook在后”),这使得当遇到实体顺序发生变化时,模型的表现会下降。原创 2024-10-22 19:13:14 · 1039 阅读 · 0 评论 -
《Order-Agnostic Data Augmentation for Few-Shot Named Entity Recognition》中文
数据增强(DA)方法已被证明在低资源环境中对预训练语言模型(PLMs)有效,包括少量样本的命名实体识别(NER)。然而,现有的NER DA技术要么对单词进行基于规则的操作,从而破坏句子的语义连贯性,要么利用生成模型进行实体或上下文的替换,这需要大量的标注数据,且与在低资源环境中操作的目标相悖。在本研究中,我们提出了无序数据增强(OADA),这是一种替代解决方案,利用在序列到序列NER方法的数据构建阶段常被忽视的无序特性进行数据增强。原创 2024-10-22 16:11:02 · 1208 阅读 · 0 评论 -
论文解读《De-noised Vision-language Fusion Guided by Visual Cues for E-commerce Product Search》
在该方法中,MM-LTP通过计算文本Token的重要性得分,并根据学习到的门限剪除不重要的Token,从而减少噪声文本对模型训练的负面影响。这一方法通过动态调整门限值,使得模型能够在电子商务场景中更加准确地捕捉视觉和语言信息的关联,提高检索性能。在电子商务中,视觉-语言多模态模型在产品搜索中起着至关重要的作用。然而,由于电子商务数据通常是自动收集的,图像和文本之间的对齐往往存在噪声和冗余问题,特别是文本描述中包含许多与视觉无关的属性。这种噪声和非视觉描述的属性使得多模态模型在产品搜索任务中的表现不佳。原创 2024-10-21 20:40:09 · 1001 阅读 · 0 评论 -
RoI Pooling
RoI Pooling(Region of Interest Pooling)是一种常用于目标检测(object detection)中的技术,主要用于将不同大小的候选区域(Region of Interest,RoI)统一到相同的尺寸,方便后续的处理,如分类或边界框回归。RoI Pooling可以从多尺度的特征图中提取RoI区域的信息,并统一到相同的大小,确保不同尺度的目标都能被有效处理。RoI Pooling的核心操作是将输入的RoI(通常是在特征图上对应的矩形区域)划分为固定数量的子区域(例如。原创 2024-10-21 16:35:18 · 586 阅读 · 0 评论 -
mIoU详解
(mean Intersection over Union,平均交并比)是计算机视觉任务中常用的评估指标,特别是在目标检测和语义分割任务中。它用于衡量模型预测的边界框或分割区域与真实边界框或真实分割区域之间的重叠程度。原创 2024-10-20 14:49:14 · 850 阅读 · 0 评论
分享