沐花月-CSDN博客

原创《目标语音分离》文本引导目标说话人提取

融合层:在这里，我们遵循一种简单的连接方法来融合音频和文本线索，我们通过两个线性投影层将文本线索和音频线索嵌入转换为相同的维度，然后直接将它们连接起来形成多模态表示.本文：提出LLM- TSE的模型，(LLM)从用户输入的文本中提取有用的语义线索。1.使用文本作为转录片段 LLMTSE模型可以利用可区分的声音线索，以转录片段的形式，促进说话人提取，超越当前TSE模型的能力。在编码阶段，使用三个不同的编码器将预注册的语音、文本提示和输入音频混合转换成相应的嵌入。处理流程：编码--->融合------>提取。

2023-11-27 21:19:18 182

原创《读论文系列多模态语音分离》

本研究利用目标说话人的空间位置、语音特征和嘴唇运动等所有可用信息，提出了一种通用的多模态目标语分离框架。提出了一种基于注意因子的多模态高级语义信息融合方法.首先将混合音频分解为一组声学子空间，然后利用来自其他模态的目标信息，利用可学习的注意力方案增强这些子空间声学嵌入。现状：纯语音分离大多数监督方法基于频谱图掩蔽，估计目标说话人在混合频谱图的每个时频(T-F) bin处的权重(掩码)。混合频谱图与预测掩模之间的乘积作为目标语音频谱图。

2023-11-27 20:30:58 131

原创 java学习基础

学生是一个对象，这个对象里面有属性（age，sex，name）和方法（getname，getage）。java虚拟机的内存分为三个部分：栈（stack），堆（heap），方法区（methods area）栈： 1、描述方法执行的内存模型，每个方法被调用都会创建一个栈帧（存储局部变量、操作数、方法出口）不同的方法，名字相同，形参类型，形参个数，形参顺序不同。3、存放永远不变或者唯一的内容（类信息，静态变量，字符串常量。，因为静态方法，静态变量存放在堆的方法区，而堆中存放对象，栈存放主函数。

2023-11-06 18:12:47 61

原创《tensorflow 学习》

机器学习是手动处理数据，深度学习由多个层组成，将更简单的模型组合在一起，将数据从一层传递到另一层，通过训练大量数据自动得出模型。深度学习适合难以提取特征的图像、语音、等自然语言处理领域。

2023-11-02 11:39:43 51 1

原创《读论文系列》讲述、想象和搜索：用于合成文本和图像到图像检索的端到端学习

传统：以一个模态数据作为查询，检索另一个模态的相关数据。本文：端到端的可训练网络，用于生成图像和CTI-IR首先，它可以通过联合训练生成模型和检索模型来学习查询(带有文本描述的查询图像)的生成和判别特征。其次，我们的模型可以通过合成图像和目标图像之间的对抗性学习，根据文本描述自动处理参考图像的视觉特征。第三，利用全局-局部协同鉴别器和基于注意力的生成器，使我们的方法能够同时关注查询图像和目标图像之间的全局和局部差异。1 介绍。

2023-10-31 20:16:09 57 1

原创《读论文系列文本+草图进行图文搜索 TASK-former》 A Sketch Is Worth a （文本+草图进行图文搜索）

基于文本的图像检索：从输入文本查询中检索相关图像，主要集中与基于transformer的模型，评分函数：评估文本描述和图像之间的相似性（通常采用余弦相似度）演示了草图输入的存在，即使是画得很差的一个，也有助于将检索到的图像集缩小到与草图和文本查询提供的联合描述相匹配的图像集。本文挑战（困难点）：1.由非艺术家用户绘制的草图存在语义歧义。对于一个非艺术家，它需要努力画一个草图，以充分准确地代表所需的图像检索。

2023-10-25 19:47:11 135 1

原创《数据结构》红黑树，b树，b+树

红黑树：b树：b+树：

2023-10-25 15:06:38 19

原创《java面试》

隐藏了类内部的实现机制，在不影响使用的情况下改变了类的内部结构，保护了内部的数据，对外界来说，内部细节隐藏。多态指的是类与类的关系，两个类继承同一个父类，同时对父类的方法进行重写。对于删除和插入来说LinkedList更适合，时间复杂度为O（1），而ArrayList的shijianfzd为O（n)所以，对于查找来说，ArrayList更适合，O（1），而LinkedLsit的时间复杂度为O（n）第一代线程安全集合类采用：Vector，Hashtable，采用synchronized修饰方法。

2023-10-22 21:28:51 22 1

原创《读论文系列迭代匹配循环注意记忆 IMRAM》Iterative Matching wit

问题：由于图像和文本之间存在较大的异质性差距，现有的基于注意力的模型，例如[13]，可能无法很好地抓住多个区域-词片段对之间的最佳成对关系。细粒度对应：Karpathy等[11]提取了每个图像和文本的片段特征(即图像区域和文本词)，并提出了每个片段对之间的密集对齐。2.我们提出了一种循环注意记忆的迭代匹配方法，该方法结合了跨模态注意单元和记忆蒸馏单元，以细化图像和文本之间的对应关系。问题：采用细粒度的方式探索图像文本的双向检索，平等地考虑所有的语义，统一的对齐他们，不考虑复杂性。

2023-10-22 17:49:58 61 1

原创 nlp训练过程梳理

（1）训练集：图像+文本（自动生成的图像描述或标签）（2）特征提取提取图像特征：CNN提取文本特征：RNN，Transformer（3）模型设计目标：让图形特征和文本特征映射到共享的表示空间，让图像-文本对在共享空间中更加接近。不相关的对则远离（4）训练采用对比损失，三元组损失来训练函数，从而使得匹配的对更加接近，不匹配的对远离。（5）验证和评估使用验证集来评估模型性能，使用召回率、精确度等指标来衡量模型的效果。（6）应用。

2023-10-18 13:38:18 82 1

原创《读论文系列图文检索（将对象关系属性建模为图，计算相似度） GSMN》Graph Structured Network for Image-Text Matching

GSMN将对象、关系、和属性建模为一个结构化短语，学习到对象、关系和属性的对应关系。节点级匹配：将每个节点与其来自另一模态的相关节点关联。结构级匹配：融合关联领域，关联节点，共同推断出细粒度的对应关系。全局对应学习方法：将整个图像和文本投影到一个共同的潜在空间，可以将文本和图像统一为相似的表示。目标：最大化匹配的图像-文本对的相似性局部对应学习方法：学习局部区域与单词的对应关系。(1)由于关系和属性的对应关系被对象对应关系所淹没，很难学习到它们的对应关系。

2023-10-17 18:41:30 225

原创《读论文系列图文检索双编码器架构 VisualSparta》 An Embarrassingly Simple Approach

现有的文本到图像检索模型可以大致分为两类:查询不可知模型和查询依赖模型。双编码器架构是一种常见的查询无关模型，它使用两个编码器对查询和图像进行编码，然后通过内积计算相似性。转换器架构：每对文本和图像通过连接并传递到一个网络中进行编码，而不是由两个单独的编码器进行编码。本文贡献：（1）提出了一种新的检索模型，该模型在MSCOCO和Flickr 30K两个基准数据集上获得了最新的检索结果。（2）加权词袋是跨模态检索的一种有效表示，可以有效地索引到倒排索引中，从而实现快速检索。

2023-10-16 12:40:46 153 1

原创《读论文系列图文检索计算各个样本相似性 TGDT》Efficient Token-Guided Image-Text Retrieval

图像-文本检索包括两个密切相关的任务:文本到图像检索和图像到文本检索。文本到图像检索：旨在从图像候选集中选择与给定文本最匹配的图像。图像到文本检索：试图在文本候选集中找到最能描述图像的句子。文本-图像检索要做的就是目的是基于图像和文本之间基于内容的语义相似性进行匹配。粗粒度检索只是根据图像和文本的全局表示计算它们之间的全局相似度。

2023-10-12 15:32:12 399

原创《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN

本文贡献点：1.一种新的单阶段框架SSA-GAN，用于从文本合成图像。计算量更少，训练效率更高，更稳定。2.只使用句子嵌入。方法简单，计算成本更低。3.引入一种新的SSA块，通过预测语义掩码，有效深度融合文本和图像特征，指导学习后的像素级文本自适应仿射变换。4.语义掩码预测器以弱监督的方式进行训练，因此不需要额外的注释，并且该块有可能应用于其他T2I数据集。

2023-10-07 15:35:27 205 1

原创《读论文系列文本生成图像再生成文本，计算语义一致性 MirrorGAN 》Learning Text-to-image Generation by Redescription

从给定的文本描述生成图像有两个目标:视觉真实感和语义一致性。在本文中，我们提出MirrorGAN。MirrorGAN利用了通过重新描述学习文本到图像生成语义文本嵌入模块(STEM)、用于级联图像生成的全局-局部协作关注模块(GLAM)和语义文本再生和对齐模块(STREAM)。STEM：生成词级和句子级嵌入。GLAM：利用局部词注意和全局句子注意，逐步增强生成图像的多样性和语义一致性。STREAM：从生成的图像中重新生成文本描述，该图像在语义上与给定的文本描述保持一致。本文贡献：1.提出MirrorGAN。

2023-10-06 17:05:38 139 1

m0_61054964的博客