uuu_柚子-CSDN博客

原创 Python常用函数

Python常见函数

2023-09-26 22:13:16 419

原创 Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment

titleSpeech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment时间2023年译题基于明确的跨模态对齐的语音-文本对话预训练会议ACL(CCF A)Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Moda

2023-09-25 14:57:43 485 3

原创 A Framework to Evaluate Fusion Methods for Multimodal Emotion Recognition

在仔细考虑了本节提供的不同结果之后，很明显，质量因子方法(深度融合，加权组合，自我关注)和EmbracenetEmbracenetEmbracenet可以被认为是成功的，因为它们改进了最佳个体模态(文本)的结果。当只使用该情态时，它们可以正确分类大多数正确分类的样本，但也可以正确分类许多文本信息不可用的样本。他们也一致地实现了这种类型的结果，这与基于MLPMLPMLP的模型(MLPsimpleAttentionMLP。

2023-09-17 16:07:23 336

原创每日一题之数值的整数次方

数值的整数运算

2023-08-20 22:09:38 269

原创每日一题之二进制中1的个数

二进制中1的个数

2023-08-19 21:30:22 180

原创每日一题之跳台阶

跳台阶

2023-08-16 23:02:22 113

原创每日一题之旋转数组的最小数字

二分查找应用

2023-08-15 22:13:05 243

原创每日一题之用两个栈实现队列

用两个栈实现队列

2023-08-14 23:51:02 255

原创每日一题之常见的排序算法

常见排序算法

2023-08-13 21:27:09 219

原创每日一题——重建二叉树

递归是一个过程或函数在其定义或说明中有直接或间接调用自身的一种方法，它通常把一个大型复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解。因此递归过程，最重要的就是查看能不能讲原本的问题分解为更小的子问题，这是使用递归的关键。思路：二叉树的前序遍历，我们可以直到第一个元素是根节点，因为序列没有重复的元素，我们可以从中序遍历中找到根节点，将一个树分为左子树和右子树两个部分。例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6}，则重建出如下图所示。

2023-07-31 20:49:17 315

原创寻找最大值下标

寻找最大值下标

2023-07-20 23:19:08 295

原创每日一刷——从尾到头打印链表

从尾到头打印链表

2023-07-20 21:31:31 88

原创每日一刷——替换空格

替换空格

2023-07-19 17:49:03 860

原创每日刷一题——二维数组中的查找

二维数组中的查找

2023-07-17 23:37:25 201

原创基于自注意和残差结构的跨模态情感识别融合网络

在本文中，我们提出了一种基于自注意和残差结构的跨模态融合网络（CFN-SR），用于多模态情感识别。我们设计了跨模态块，充分考虑了不同模态的互补信息，充分利用模态间和模态内的相互作用来完成语义特征的传递。包含自注意机制和残差结构可以保证信息交互的效率和完整性。我们在 RAVDESS 数据集上验证了所提出方法的有效性。实验结果表明，所提出的方法达到了最先进的水平，在 26.30M 个参数的情况下获得了 75.76% 的准确率。在未来的工作中，我们将扩展该模块，以探索多种模态之间的有效互动。

2023-07-15 23:38:30 859 1

原创 MARLIN: Masked Autoencoder for facial video Representation LearnINg

在本文中，我们旨在学习一种通用的面部编码器 MARLIN ，它具有自适应、鲁棒性和可转移性，适用于不同的面部分析任务。作为一项具有挑战性的辅助任务，MARLIN 从密集掩蔽的面部区域重建面部的时空细节，以捕捉局部和全局方面，这反过来又有助于编码通用和可转移特征。更广泛的影响。我们相信 MARLIN 可以作为不同下游面部分析任务的良好特征提取器。由于其丰富的面部特征，可以很容易地将 MARLIN 部署在低资源（例如移动设备、Jetson Nano平台）设备中，用于现实世界的应用。

2023-07-09 21:04:46 679

原创 Multimodal emotion recognition with capsule graph convolutional based representation fusion

在本文中，我们研究了信息冗余和信息互补在 MER 多模态融合方法中的重要性。所提出的融合方法 CapsGCN 的有效性已在 eNTERFACE05’ 的对比实验和消融研究中得到验证。与传统的融合方法相比，分类准确率达到 80.83% ，绝对增量分别超过 11.66% 和9.16%。该方法对所有六种情绪都表现出很高的敏感性，尤其是对恐惧、幸福和至上。所提出的融合方法在学习和建模文本信息方面也显示出巨大的潜力。未来，我们计划研究所提出的模型在其他一些多模态数据集上的性能。

2023-05-29 19:10:38 295

原创基于静态和动态特征融合的语音情感识别层次网络

本文针对 SER 提出了一种基于静态和动态特征的分层网络。通过分别对静态和动态特征进行编码，HNSD 可以分别确定多个信息，并避免两种类型的特征之间的相互干扰。为了将静态和动态表示相结合，将 GMU 应用于帧级的特征融合。此外， Bahdanau 注意机制用于使 HNSD 选择性地关注言语中情绪显著的部分。基于先进的层次结构，HNSD 可以捕捉情绪变化，并检测出更具鉴别力的知识进行识别。实验证明了 HNSD 与 IEMOCAP 上最先进的方法相比的优越性。

2023-05-19 21:32:34 846

原创 Multimodal emotion recognition from facial expression and speech based on feature fusion

为了提高多模态情感识别的性能，建立了一种基于特征融合的技术体系结构。使用注意力机制的一种新应用，一方面作用于音频和视频特征矩阵的融合，另一方面作用于对时间信息不同维度的关注。进行消融实验以证明注意力机制在提高模型识别性能方面发挥着重要作用，并且我们的模型在基于 eNTERFACE’05 数据集和 RAVDESS 数据集的深度学习工作中取得了最佳结果。然而，由于用于训练的多模态情感数据集的规模较小，并且注释类别相对简单，因此距离多模态情感识别的实际应用仍有一定距离。

2023-05-08 15:52:18 456

原创 Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion

在本节中，我们将介绍背景以及与我们的研究密切相关的工作。首先，我们简要介绍了用于多模态情绪识别的特征提取机制。然后，我们总结了 SSL 的理论，并解释了本研究中使用的三个预先训练的 SSL 模型。最后，我们重点介绍了与多模态融合密切相关的工作。在这项工作中，我们专注于使用预先训练的 SSL 模型作为特征提取器来改进情绪识别任务。为了实现我们的目标，我们设计了一种基于 Transformer 的多模态融合机制，该机制能够通过理解模态间的连接来很好地执行。

2023-05-01 09:20:39 945

原创 Self-supervised learning of a facial attribute embedding from video

我们引入了FAb-Net：一个用于从视频中学习面部属性的自监督框架。我们的方法通过在没有任何手动标签的情况下观看大量视频中的人脸移动和变化来学习姿势和表情。然后，我们训练的网络的特征可以用于预测其他数据集上的姿势、特征和表情（尽管域发生了变化），只需在学习的嵌入之上训练一个线性层。这些特征已被证明在各种任务上与自监督和监督方法具有可比性或优越的性能。

2023-04-22 14:32:36 286

原创增加最优传输过程中遇到的问题

增加最优传输，遇到的问题及解决方案

2023-04-16 15:32:59 559

原创 Multi-modal Alignment using Representation Codebook

我们以端到端的方式同时优化框架内的codebook和学生编码器，采用以下前几节中讨论的损失，LfinalLmlmLitmLicaLcode9LfinalLmlmLitmLicaLcode9其中MLM和ITM损失已被广泛应用于许多V&L方法，特别是那些“早期融合”框架。ica损失是“后期融合”V&L框架的主要目标函数。CODIS结合了“早期融合”和“后期融合”方法的优点，通过明确学习融合中的对齐。

2023-04-13 20:56:03 1452

原创 Adaptive Weight Assignment Scheme For Multi-task Learning

理解并正确执行不同的超参数对于训练 DNN 模型以获得最佳结果至关重要。当涉及到所需的数据量、训练模型的时间、减少过拟合和提高模型性能时，多任务学习设置在单任务学习中占据上风。在多任务学习设置中，由于并非所有任务都具有相同的难度，因此为损失值分配权重对于更加强调困难任务很重要。在本文中，我们提出了一种新的权重分配方案，该方案有助于提高多任务学习模型的性能。我们提出的方法在图像和文本领域都优于其他最先进的权重分配方案，并提高了模型的性能。

2023-04-10 14:42:11 527

原创 Self-attention fusion for audiovisual emotion recognition with incomplete data

我们提出了一种端到端学习的视听情感识别模型和一种基于注意力的融合方法。我们评估了不同模态融合方法在其中一种模态不存在或存在噪声的情况下的鲁棒性，并提出了一种提高模型鲁棒性的方法。重要的是，所提出的方法还提高了在两种模式都存在的（理想）标准设置下的性能。

2023-04-08 17:49:42 774

原创 1004[递归]母牛的故事

递归算法

2023-04-08 15:12:28 653

原创 Understanding and Constructing Latent Modality Structures in Multi-Modal Representation Learning

在本文中，我们研究了多模态表示学习中的潜在模态结构。我们分析和检查了潜在特征空间中的模态差距，并揭示了将模态差距减少到零并不总是会带来更好的性能。相反，我们主张更有意义的潜在特征结构将有利于下游应用程序。因此，我们设计了三种正则化方法来构造有意义的潜在结构。我们建议从不同角度使用1)深度特征分离损失2)布朗桥损失3)几何一致性损失对潜在特征进行改进。在图像分类、线性探测、视觉问题回答、视觉推理、视觉蕴涵等多种视觉语言任务上的大量实验证实了我们所提出的方法在流行对比表征学习框架上的有效性和可泛化性。

2023-03-20 22:11:45 988

空空如也

空空如也