自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 《目标语音分离》文本引导目标说话人提取

融合层:在这里,我们遵循一种简单的连接方法来融合音频和文本线索,我们通过两个线性投影层将文本线索和音频线索嵌入转换为相同的维度,然后直接将它们连接起来形成多模态表示.本文:提出LLM- TSE的模型,(LLM)从用户输入的文本中提取有用的语义线索。1.使用文本作为转录片段 LLMTSE模型可以利用可区分的声音线索,以转录片段的形式,促进说话人提取,超越当前TSE模型的能力。在编码阶段,使用三个不同的编码器将预注册的语音、文本提示和输入音频混合转换成相应的嵌入。处理流程:编码--->融合------>提取。

2023-11-27 21:19:18 182

原创 《读论文系列 多模态语音分离》

本研究利用目标说话人的空间位置、语音特征和嘴唇运动等所有可用信息,提出了一种通用的多模态目标语分离框架。提出了一种基于注意因子的多模态高级语义信息融合方法.首先将混合音频分解为一组声学子空间,然后利用来自其他模态的目标信息,利用可学习的注意力方案增强这些子空间声学嵌入。现状:纯语音分离 大多数监督方法基于频谱图掩蔽,估计目标说话人在混合频谱图的每个时频(T-F) bin处的权重(掩码)。混合频谱图与预测掩模之间的乘积作为目标语音频谱图。

2023-11-27 20:30:58 131

原创 java学习基础

学生是一个对象,这个对象里面有属性(age,sex,name)和方法(getname,getage)。java虚拟机的内存分为三个部分:栈(stack),堆(heap),方法区(methods area)栈: 1、描述方法执行的内存模型,每个方法被调用都会创建一个栈帧(存储局部变量、操作数、方法出口)不同的方法,名字相同,形参类型,形参个数,形参顺序不同。3、存放永远不变或者唯一的内容(类信息,静态变量,字符串常量。,因为静态方法,静态变量存放在堆的方法区,而堆中存放对象,栈存放主函数。

2023-11-06 18:12:47 61

原创 《tensorflow 学习》

机器学习是手动处理数据,深度学习由多个层组成,将更简单的模型组合在一起,将数据从一层传递到另一层,通过训练大量数据自动得出模型。深度学习适合难以提取特征的图像、语音、等自然语言处理领域。

2023-11-02 11:39:43 51 1

原创 《读论文系列 》讲述、想象和搜索:用于合成文本和图像到图像检索的端到端学习

传统:以一个模态数据作为查询,检索另一个模态的相关数据。本文:端到端的可训练网络,用于生成图像和CTI-IR首先,它可以通过联合训练生成模型和检索模型来学习查询(带有文本描述的查询图像)的生成和判别特征。其次,我们的模型可以通过合成图像和目标图像之间的对抗性学习,根据文本描述自动处理参考图像的视觉特征。第三,利用全局-局部协同鉴别器和基于注意力的生成器,使我们的方法能够同时关注查询图像和目标图像之间的全局和局部差异。1 介绍。

2023-10-31 20:16:09 57 1

原创 《读论文系列 文本+草图 进行图文搜索 TASK-former》 A Sketch Is Worth a (文本+草图 进行图文搜索)

基于文本的图像检索:从输入文本查询中检索相关图像,主要集中与基于transformer的模型,评分函数:评估文本描述和图像之间的相似性(通常采用余弦相似度)演示了草图输入的存在,即使是画得很差的一个,也有助于将检索到的图像集缩小到与草图和文本查询提供的联合描述相匹配的图像集。本文挑战(困难点):1.由非艺术家用户绘制的草图存在语义歧义。对于一个非艺术家,它需要努力画一个草图,以充分准确地代表所需的图像检索。

2023-10-25 19:47:11 135 1

原创 《数据结构》红黑树,b树,b+树

红黑树:b树:b+树:

2023-10-25 15:06:38 19

原创 《java面试》

隐藏了类内部的实现机制,在不影响使用的情况下改变了类的内部结构,保护了内部的数据,对外界来说,内部细节隐藏。多态指的是类与类的关系,两个类继承同一个父类,同时对父类的方法进行重写。对于删除和插入来说LinkedList更适合,时间复杂度为O(1),而ArrayList的shijianfzd为O(n)所以,对于查找来说,ArrayList更适合,O(1),而LinkedLsit的时间复杂度为O(n)第一代线程安全集合类采用:Vector,Hashtable,采用synchronized修饰方法。

2023-10-22 21:28:51 22 1

原创 《读论文系列 迭代匹配 循环注意记忆 IMRAM》Iterative Matching wit

问题:由于图像和文本之间存在较大的异质性差距,现有的基于注意力的模型,例如[13],可能无法很好地抓住多个区域-词片段对之间的最佳成对关系。细粒度对应:Karpathy等[11]提取了每个图像和文本的片段特征(即图像区域和文本词),并提出了每个片段对之间的密集对齐。2.我们提出了一种循环注意记忆的迭代匹配方法,该方法结合了跨模态注意单元和记忆蒸馏单元,以细化图像和文本之间的对应关系。问题:采用细粒度的方式探索图像文本的双向检索,平等地考虑所有的语义,统一的对齐他们,不考虑复杂性。

2023-10-22 17:49:58 61 1

原创 nlp训练过程梳理

(1)训练集:图像+文本(自动生成的图像描述或标签)(2)特征提取提取图像特征:CNN提取文本特征:RNN,Transformer(3)模型设计目标:让图形特征和文本特征映射到共享的表示空间,让图像-文本对在共享空间中更加接近。不相关的对则远离(4)训练采用对比损失,三元组损失来训练函数,从而使得匹配的对更加接近,不匹配的对远离。(5)验证和评估使用验证集来评估模型性能,使用召回率、精确度等指标来衡量模型的效果。(6)应用。

2023-10-18 13:38:18 82 1

原创 《读论文系列 图文检索(将对象关系属性建模为图,计算相似度) GSMN》Graph Structured Network for Image-Text Matching

GSMN将对象、关系、和属性建模为一个结构化短语,学习到对象、关系和属性的对应关系。节点级匹配:将每个节点与其来自另一模态的相关节点关联。结构级匹配:融合关联领域,关联节点,共同推断出细粒度的对应关系。全局对应学习方法:将整个图像和文本投影到一个共同的潜在空间,可以将文本和图像统一为相似的表示。目标:最大化匹配的图像-文本对的相似性局部对应学习方法:学习局部区域与单词的对应关系。(1)由于关系和属性的对应关系被对象对应关系所淹没,很难学习到它们的对应关系。

2023-10-17 18:41:30 225

原创 《读论文系列 图文检索 双编码器架构 VisualSparta》 An Embarrassingly Simple Approach

现有的文本到图像检索模型可以大致分为两类:查询不可知模型和查询依赖模型。双编码器架构是一种常见的查询无关模型,它使用两个编码器对查询和图像进行编码,然后通过内积计算相似性。转换器架构:每对文本和图像通过连接并传递到一个网络中进行编码,而不是由两个单独的编码器进行编码。本文贡献:(1)提出了一种新的检索模型,该模型在MSCOCO和Flickr 30K两个基准数据集上获得了最新的检索结果。(2)加权词袋是跨模态检索的一种有效表示,可以有效地索引到倒排索引中,从而实现快速检索。

2023-10-16 12:40:46 153 1

原创 《读论文系列 图文检索 计算各个样本相似性 TGDT》Efficient Token-Guided Image-Text Retrieval

图像-文本检索包括两个密切相关的任务:文本到图像检索和图像到文本检索。文本到图像检索:旨在从图像候选集中选择与给定文本最匹配的图像。图像到文本检索:试图在文本候选集中找到最能描述图像的句子。文本-图像检索要做的就是目的是基于图像和文本之间基于内容的语义相似性进行匹配。粗粒度检索只是根据图像和文本的全局表示计算它们之间的全局相似度。

2023-10-12 15:32:12 399

原创 《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN

本文贡献点:1.一种新的单阶段框架SSA-GAN,用于从文本合成图像。计算量更少,训练效率更高,更稳定。2.只使用句子嵌入。方法简单,计算成本更低。3.引入一种新的SSA块,通过预测语义掩码,有效深度融合文本和图像特征,指导学习后的像素级文本自适应仿射变换。4.语义掩码预测器以弱监督的方式进行训练,因此不需要额外的注释,并且该块有可能应用于其他T2I数据集。

2023-10-07 15:35:27 205 1

原创 《读论文系列 文本生成图像 再生成文本,计算语义一致性 MirrorGAN 》Learning Text-to-image Generation by Redescription

从给定的文本描述生成图像有两个目标:视觉真实感和语义一致性。在本文中,我们提出MirrorGAN。MirrorGAN利用了通过重新描述学习文本到图像生成语义文本嵌入模块(STEM)、用于级联图像生成的全局-局部协作关注模块(GLAM)和语义文本再生和对齐模块(STREAM)。STEM:生成词级和句子级嵌入。GLAM:利用局部词注意和全局句子注意,逐步增强生成图像的多样性和语义一致性。STREAM:从生成的图像中重新生成文本描述,该图像在语义上与给定的文本描述保持一致。本文贡献:1.提出MirrorGAN。

2023-10-06 17:05:38 139 1

原创 《读论文系列 GPT》Improving Language Understandingby Generative Pre-Training(使用通用的预训练来提升语言的理解力)

自然语言理解包括各种各样的任务,如文本蕴涵、问题回答、语义相似性评估和文档分类。我们在没有标号的语言模型上进行预训练,在有标号的子任务上训练一个微调模型。与以前的方法相反,我们在微调期间利用任务感知输入转换来实现有效的传输,同时需要对模型体系结构进行最小的更改。我们在自然语言理解的广泛基准上证明了我们的方法的有效性。+结果使用无标号文本遇到的困难:1 不清楚哪种类型的优化目标在学习对迁移有用的文本表示时最有效2 怎么把文本学到的表示传到下游子任务上半监督:学习一种普遍的表征,首先,我们在。

2023-09-27 14:28:01 145 1

原创 《读论文系列 双流网络》Two-Stream Convolutional Networksfor Action Recognition in Videos(视频中动作识别的双流卷积网络)

本文工作:我们研究了判别训练深度卷积网络(ConvNets)的结构,用于视频中的动作识别。难点在于如何从静止帧和帧之间的运动中获取图像外观的互补信息。我们还致力于在数据驱动的学习框架中概括表现最好的手工特征。本文贡献:1.我们提出了一种融合时空网络的双流卷积神经网络架构。2.我们证明了在训练数据有限的情况下,在多帧密集光流上训练的卷积神经网络能够获得非常好的性能。3.我们证明了将多任务学习应用于两个不同的动作分类数据集,可以用来增加训练数据量并提高两者的性能。

2023-09-26 20:40:32 84

原创 《读论文系列 Clip》Learning Transferable Visual Models From Natural Language Supervision(自然语言监督中学习可迁移的语言模型)

提出一个新的模型做图片分类现在的计算机视觉系统:先有一个固定的。提前已经定义好的物体类别的集合,模型去预测这些已经提前定义好的类别,完成模型训练(限制性的监督信号,限制了模型本省的泛化)本文:直接从文本中得到监督信号(语言描述这个物体,这个视觉模型就有可能能够识别到这个物体)训练过程:给一些图片,给一些句子,模型需要去判断哪一个句子和图片配对本文采用多模态的对比学习完成训练。

2023-09-26 18:38:58 217

原创 《读论文系列》NCI A Neural Corpus Indexer for Document Retrieval

用transformer做文档检索,现有的文档检索解决方案主要关注索引模式。很难针对最终的检索的目标进行优化。本文端到端的深度检索框架可以很大程度的提升检索的性能。为此,本文提出了Neural Corpus Indexer(NCI),一个序列到序列模型,以query作为输入,直接输出相关文档的id。为了优化NCI的召回性能,本文提出了解码器框架,并利用了许多技巧包括查询生成,语义文档标识符,基于一致性的正则。当前存在的问题,提出本文模型,本文模型的创新点,结果表现。

2023-09-22 10:43:47 413 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除