多模态
文章平均质量分 80
丰。。
某top数据科学专业博士研究生,发表多篇论文,CCFA类2篇,sci2区一篇,目前担任sci2区文章审稿人,均为深度学习领域,第一作者,五次国际级获奖经历,国家级大创四项,多次省级校级获奖经历,负责多项科研项目。希望大佬们多多提携,小弟定投桃报李。
展开
-
CLIP(Contrastive Language-Image Pretraining)
是一个由 OpenAI 开发的深度学习模型,它融合了文本和图像的信息,以便同时理解和生成文本和图像。CLIP 可以执行各种任务,包括图像分类、文本描述生成、图像生成以文本描述等。多模态 CLIP 的核心思想是使用对比学习来训练一个模型,使其能够理解文本和图像之间的关系。它使用了大量的文本和图像数据对模型进行预训练,然后可以通过微调来适应特定的任务。CLIP 的多模态能力使其非常强大,可以用于各种应用,例如图像搜索、文本到图像的生成、图像到文本的描述生成、情感分析等等。原创 2023-09-10 20:54:22 · 311 阅读 · 0 评论 -
LXMERT:视觉语言跨模态框架
LXMERT(Language-Visual Multimodal BERT)是一种用于视觉与语言理解的跨模态框架,它将自然语言文本和图像信息结合在一起,以实现更深入的理解和多模态推理。跨模态理解:LXMERT旨在处理同时包含文本和图像信息的任务,例如视觉问答(VQA)、图像标注、文本-图像检索等。视觉注意力:LXMERT包括视觉注意力机制,允许模型在处理文本时关注图像中的不同区域,反之亦然。性能:LXMERT在多模态任务中取得了卓越的性能,并在一些视觉问答和图像标注挑战中超越了先前的方法。原创 2023-09-10 19:10:58 · 525 阅读 · 0 评论 -
多模态预训练模型 UNITER
多模态预训练模型 UNITER(Universal Image-Text Representation Learning)是一个由微软研究院和香港中文大学联合开发的深度学习模型,旨在实现图像和文本之间的多模态理解与表示学习。UNITER 的目标是将图像和文本信息结合起来,以便更好地理解和处理同时包含图像和文本数据的任务,例如图像标注、视觉问答、文本-图像检索等。性能:UNITER 在多个多模态任务上表现出色,超越了以前的一些方法,为图像和文本多模态处理提供了一个强大的工具。原创 2023-09-10 19:08:09 · 493 阅读 · 0 评论 -
深度学习神经网络学习笔记-多模态方向-13- Multimodal machine learning: A survey and taxonomy
本文为简单机翻,参考学习用1多模态机器学习:综述与分类Tadas Baltruˇsaitis, Chaitanya Ahuja,和Louis-Philippe Morency抽象——我们对世界的体验是多模态的——我们看到物体,听到声音,感觉到纹理,闻到气味,尝到味道。模态是指某件事情发生或体验的方式,当一个研究问题包含多个这样的模态时,它就被称为多模态。为了让人工智能在理解我们周围的世界方面取得进展,它需要能够一起解释这样的多模态信号。多模态机器学习旨在建立能够处理和关联来自多种模态的信息的模型。它原创 2023-05-23 19:00:23 · 1185 阅读 · 2 评论 -
深度学习神经网络学习笔记-多模态方向-12-DBpedia: A Nucleus for a Web of Open Data
DBpedia是一个社区努力从维基百科中提取结构化信息,并使这些信息在网络上可用。DBpedia允许您对来自维基百科的数据集提出复杂的查询,并将网络上的其他数据集链接到维基百科数据。我们描述了DBpedia数据集的提取,以及产生的信息如何在网络上发布,供人类和机器消费。我们描述了来自DBpedia社区的一些新兴应用,并展示了网站作者如何在他们的网站内促进DBpedia内容的发展。最后,我们介绍了DBpedia与网络上其他开放数据集互联的现状,并概述了DBpedia如何可以作为新兴开放数据网络的核心。原创 2023-05-23 14:47:56 · 1144 阅读 · 0 评论 -
深度学习神经网络学习笔记-多模态方向-11-Deep Voice: Real-time Neural Text-to-Speech
本文提出Deep Voice,一种完全由深度神经网络构建的生产质量文本到语音系统。Deep Voice为真正的端到端神经语音合成奠定了基础。该系统由五个主要的构建模块组成:用于定位音素边界的分割模型、字素到音素的转换模型、音素时长预测模型、基频预测模型和音频合成模型。对于分割模型,我们提出了一种使用连接时序分类(CTC)损失的深度神经网络执行音素边界检测的新方法。对于音频合成模型,我们实现了WaveNet的一个变体,比原始模型需要更少的参数,训练速度更快。原创 2023-05-23 14:20:40 · 1193 阅读 · 0 评论 -
深度学习神经网络学习笔记-多模态方向-10-Neural Voice Cloning with a Few Samples
语音克隆是个性化语音接口非常需要的功能。我们介绍了一个神经语音克隆系统,该系统仅从少数音频样本中学习合成一个人的声音。我们研究了两种方法:说话人适应和说话人编码。说话人自适应是基于多说话人生成模型的微调。说话人编码是基于训练一个单独的模型来直接推断一个新的说话人嵌入,这将被应用到一个多说话人生成模型中。从语音的自然度和与原始说话人的相似度来看,这两种方法都可以获得很好的性能,即使有一些克隆音频。原创 2023-05-22 19:14:57 · 592 阅读 · 0 评论 -
深度学习神经网络学习笔记-多模态方向-09-VQA: Visual Question Answering
我们提出了自由形式和开放式视觉问答(VQA)的任务。给定一张图像和一个关于图像的自然语言问题,任务是提供一个准确的自然语言答案。镜像现实场景,比如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,在VQA上取得成功的系统通常需要比生成通用图像标题的系统更详细地了解图像和复杂的推理。此外,VQA适合自动评估,因为许多开放式答案只包含几个单词或一组封闭的答案,这些答案可以以多项选择的形式提供。原创 2023-05-22 14:47:57 · 1802 阅读 · 0 评论 -
深度学习神经网络学习笔记-多模态方向-08-Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answ
自顶向下的视觉注意机制已广泛应用于图像字幕和视觉问答(VQA)中,通过细粒度分析甚至多步推理,实现更深层次的图像理解。在这项工作中,我们提出了一种自下而上和自上而下相结合的注意机制,使注意力能够在物体和其他突出图像区域的层面上进行计算。这是需要考虑的注意力的自然基础。在我们的方法中,自下而上的机制(基于Faster R-CNN)提出图像区域,每个区域都有一个相关的特征向量,而自上而下的机制决定特征权重。原创 2023-05-22 14:08:18 · 412 阅读 · 0 评论 -
深度学习神经网络学习笔记-多模态方向-07-Don’t Just Assume; Look and Answer: Overcoming Priors for Visual Question Answ
大量研究发现,如今的视觉问答(VQA)模型在很大程度上是由训练数据中的表面相关性驱动的,并且缺乏足够的图像基础。为了鼓励面向后者的模型的发展,我们为VQA提出了一种新的设置,其中对于每种问题类型,训练和测试集都有不同的答案的先验分布。具体来说,本文提出了VQA v1和VQA v2数据集的新划分,称为先验变化下的视觉问题回答(分别为VQA-CP v1和VQA-CP v2)。首先,我们在这个新设置下评估了几个现有的VQA模型,并表明它们的性能与原始VQA设置相比显著下降。原创 2023-05-19 20:08:08 · 366 阅读 · 0 评论 -
深度学习神经网络学习笔记-多模态方向-06-VQA-Med: Overview of the Medical Visual Question Answering Task at ImageCLEF 2
本文介绍了ImageCLEF 2019上的医学视觉问答任务(VQA-Med)的概述。参与系统的任务是根据放射学图像的视觉内容回答医学问题。在VQA-Med的第二版中,我们重点讨论了四类临床问题:模态、平面、器官系统和异常。利用分类和文本生成方法,这些类别的设计具有不同程度的难度。我们还确保所有问题都可以从图像内容中回答,而不需要额外的医学知识或特定领域的推理。我们创建了一个包含4200个放射学的新数据集遵循这些指导方针的图像和15292个问题-答案对。原创 2023-05-19 16:56:49 · 272 阅读 · 0 评论 -
深度学习神经网络学习笔记-多模态方向-05-An Efficient Normalized Restricted Boltzmann Machine for Solving Multiclass Cl
利用计算机视觉和图像处理基于未标记图像的多类分类是目前的一个重要问题。在这项研究中,我们重点研究了为类驱动的无标记数据构建高级特征检测器的现象。我们提出了一种归一化受限玻尔兹曼机(NRBM)来形成一个鲁棒的网络模型。所提出的NRBM的开发是为了实现降维的目标,并在学习更合适的数据特征方面提供更好的特征提取,并进行增强。为了提高学习收敛速度并降低NRBM的复杂度,我们在训练更新参数时添加了Polyak平均法。原创 2023-05-19 15:14:28 · 499 阅读 · 0 评论 -
深度学习神经网络学习笔记-多模态方向-04-Video Description: A Survey of Methods, Datasets and Evaluation Metrics
视频描述是描述给定视频内容的自然语言句子的自动生成。它在人机交互、帮助视障人士和视频字幕等方面都有应用。过去几年,由于深度学习在计算机视觉和自然语言处理方面取得了前所未有的成功,这一领域的研究激增。文献中已经提出了许多方法、数据集和评估指标,呼吁需要进行全面的调查,将研究工作集中在这个蓬勃发展的新方向上。本文通过调查最先进的方法来填补这一空白,重点关注深度学习模型;比较基准数据集的领域、类数和存储库大小;并确定各种评估指标(如SPICE、CIDEr、ROUGE、BLEU、METEOR和WMD)的优缺点。原创 2023-05-16 21:15:31 · 1122 阅读 · 0 评论 -
深度学习神经网络学习笔记-多模态方向-03-Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for V
视频字幕的自动生成是计算机视觉领域的一个基本挑战。最近的技术通常采用卷积神经网络(cnn)和递归神经网络(RNNs)的组合来进行视频字幕。这些方法主要侧重于通过rnn裁剪序列学习,以更好地生成字幕,而现成的视觉特征则借鉴了cnn。我们认为,为这项任务精心设计视觉特征同样重要,并提出了一种视觉特征编码技术,使用门控循环单元(gru)生成语义丰富的字幕。我们的方法通过分层地将短傅里叶变换应用于整个视频的CNN特征,在视觉特征中嵌入丰富的时间动态。它还从对象检测器中派生出高级语义,以丰富被检测对象的空间动态表示。原创 2023-05-16 03:48:07 · 252 阅读 · 0 评论 -
人工智能多模态方向学习笔记Attention and Tell
Attention and Tell(通常缩写为“Attn-Tell”)是一种机器学习算法,用于自然语言处理任务,如文本摘要和问答。该算法由两个主要组件组成:注意力机制和解码器。注意力机制用于识别输入序列的重要部分,而解码器根据注意力机制提供的信息生成输出序列。注意机制的工作原理是根据每个输入令牌与当前生成的输出令牌的相关性为其分配权重。这些权重是使用当前输出令牌和每个输入令牌之间的点积计算的,该权重生成一个权重向量,该向量经过归一化以表示概率分布。原创 2023-03-20 18:41:47 · 309 阅读 · 0 评论 -
人工智能多模态方向学习笔记-Deep Visual-Semanti算法
Deep Visual-Semantic (DeViSE)是一种用于图像分类的算法,它使用了深度学习中的卷积神经网络 (CNN) 和词向量模型。它的主要目的是将图像和单词表示为相同的特征空间,以便可以将它们放在一起进行训练和分类。DeViSE算法的基本思想是将每个图像映射到一个固定长度的向量,这个向量被称为“视觉嵌入”(visual embedding)。同时,每个单词也被映射到一个固定长度的向量,这个向量被称为“语义嵌入”(semantic embedding)。原创 2023-03-20 18:15:05 · 460 阅读 · 0 评论