- 博客(59)
- 收藏
- 关注
原创 Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment
titleSpeech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment时间2023年译题基于明确的跨模态对齐的语音-文本对话预训练会议ACL(CCF A)Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Moda
2023-09-25 14:57:43 485 3
原创 A Framework to Evaluate Fusion Methods for Multimodal Emotion Recognition
在仔细考虑了本节提供的不同结果之后,很明显,质量因子方法(深度融合,加权组合,自我关注)和EmbracenetEmbracenetEmbracenet可以被认为是成功的,因为它们改进了最佳个体模态(文本)的结果。当只使用该情态时,它们可以正确分类大多数正确分类的样本,但也可以正确分类许多文本信息不可用的样本。他们也一致地实现了这种类型的结果,这与基于MLPMLPMLP的模型(MLPsimpleAttentionMLP。
2023-09-17 16:07:23 336
原创 每日一题——重建二叉树
递归是一个过程或函数在其定义或说明中有直接或间接调用自身的一种方法,它通常把一个大型复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解。因此递归过程,最重要的就是查看能不能讲原本的问题分解为更小的子问题,这是使用递归的关键。思路:二叉树的前序遍历,我们可以直到第一个元素是根节点,因为序列没有重复的元素,我们可以从中序遍历中找到根节点,将一个树分为左子树和右子树两个部分。例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6},则重建出如下图所示。
2023-07-31 20:49:17 315
原创 基于自注意和残差结构的跨模态情感识别融合网络
在本文中,我们提出了一种基于自注意和残差结构的跨模态融合网络(CFN-SR),用于多模态情感识别。我们设计了跨模态块,充分考虑了不同模态的互补信息,充分利用模态间和模态内的相互作用来完成语义特征的传递。包含自注意机制和残差结构可以保证信息交互的效率和完整性。我们在 RAVDESS 数据集上验证了所提出方法的有效性。实验结果表明,所提出的方法达到了最先进的水平,在 26.30M 个参数的情况下获得了 75.76% 的准确率。在未来的工作中,我们将扩展该模块,以探索多种模态之间的有效互动。
2023-07-15 23:38:30 859 1
原创 MARLIN: Masked Autoencoder for facial video Representation LearnINg
在本文中,我们旨在学习一种通用的面部编码器 MARLIN ,它具有自适应、鲁棒性和可转移性,适用于不同的面部分析任务。作为一项具有挑战性的辅助任务,MARLIN 从密集掩蔽的面部区域重建面部的时空细节,以捕捉局部和全局方面,这反过来又有助于编码通用和可转移特征。更广泛的影响。我们相信 MARLIN 可以作为不同下游面部分析任务的良好特征提取器。由于其丰富的面部特征,可以很容易地将 MARLIN 部署在低资源(例如移动设备、Jetson Nano平台)设备中,用于现实世界的应用。
2023-07-09 21:04:46 679
原创 Multimodal emotion recognition with capsule graph convolutional based representation fusion
在本文中,我们研究了信息冗余和信息互补在 MER 多模态融合方法中的重要性。所提出的融合方法 CapsGCN 的有效性已在 eNTERFACE05’ 的对比实验和消融研究中得到验证。与传统的融合方法相比,分类准确率达到 80.83% ,绝对增量分别超过 11.66% 和9.16%。该方法对所有六种情绪都表现出很高的敏感性,尤其是对恐惧、幸福和至上。所提出的融合方法在学习和建模文本信息方面也显示出巨大的潜力。未来,我们计划研究所提出的模型在其他一些多模态数据集上的性能。
2023-05-29 19:10:38 295
原创 基于静态和动态特征融合的语音情感识别层次网络
本文针对 SER 提出了一种基于静态和动态特征的分层网络。通过分别对静态和动态特征进行编码,HNSD 可以分别确定多个信息,并避免两种类型的特征之间的相互干扰。为了将静态和动态表示相结合,将 GMU 应用于帧级的特征融合。此外, Bahdanau 注意机制用于使 HNSD 选择性地关注言语中情绪显著的部分。基于先进的层次结构,HNSD 可以捕捉情绪变化,并检测出更具鉴别力的知识进行识别。实验证明了 HNSD 与 IEMOCAP 上最先进的方法相比的优越性。
2023-05-19 21:32:34 846
原创 Multimodal emotion recognition from facial expression and speech based on feature fusion
为了提高多模态情感识别的性能,建立了一种基于特征融合的技术体系结构。使用注意力机制的一种新应用,一方面作用于音频和视频特征矩阵的融合,另一方面作用于对时间信息不同维度的关注。进行消融实验以证明注意力机制在提高模型识别性能方面发挥着重要作用,并且我们的模型在基于 eNTERFACE’05 数据集和 RAVDESS 数据集的深度学习工作中取得了最佳结果。然而,由于用于训练的多模态情感数据集的规模较小,并且注释类别相对简单,因此距离多模态情感识别的实际应用仍有一定距离。
2023-05-08 15:52:18 456
原创 Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion
在本节中,我们将介绍背景以及与我们的研究密切相关的工作。首先,我们简要介绍了用于多模态情绪识别的特征提取机制。然后,我们总结了 SSL 的理论,并解释了本研究中使用的三个预先训练的 SSL 模型。最后,我们重点介绍了与多模态融合密切相关的工作。在这项工作中,我们专注于使用预先训练的 SSL 模型作为特征提取器来改进情绪识别任务。为了实现我们的目标,我们设计了一种基于 Transformer 的多模态融合机制,该机制能够通过理解模态间的连接来很好地执行。
2023-05-01 09:20:39 945
原创 Self-supervised learning of a facial attribute embedding from video
我们引入了FAb-Net:一个用于从视频中学习面部属性的自监督框架。我们的方法通过在没有任何手动标签的情况下观看大量视频中的人脸移动和变化来学习姿势和表情。然后,我们训练的网络的特征可以用于预测其他数据集上的姿势、特征和表情(尽管域发生了变化),只需在学习的嵌入之上训练一个线性层。这些特征已被证明在各种任务上与自监督和监督方法具有可比性或优越的性能。
2023-04-22 14:32:36 286
原创 Multi-modal Alignment using Representation Codebook
我们以端到端的方式同时优化框架内的codebook和学生编码器,采用以下前几节中讨论的损失,LfinalLmlmLitmLicaLcode9LfinalLmlmLitmLicaLcode9其中MLM和ITM损失已被广泛应用于许多V&L方法,特别是那些“早期融合”框架。ica损失是“后期融合”V&L框架的主要目标函数。CODIS结合了“早期融合”和“后期融合”方法的优点,通过明确学习融合中的对齐。
2023-04-13 20:56:03 1452
原创 Adaptive Weight Assignment Scheme For Multi-task Learning
理解并正确执行不同的超参数对于训练 DNN 模型以获得最佳结果至关重要。当涉及到所需的数据量、训练模型的时间、减少过拟合和提高模型性能时,多任务学习设置在单任务学习中占据上风。在多任务学习设置中,由于并非所有任务都具有相同的难度,因此为损失值分配权重对于更加强调困难任务很重要。在本文中,我们提出了一种新的权重分配方案,该方案有助于提高多任务学习模型的性能。我们提出的方法在图像和文本领域都优于其他最先进的权重分配方案,并提高了模型的性能。
2023-04-10 14:42:11 527
原创 Self-attention fusion for audiovisual emotion recognition with incomplete data
我们提出了一种端到端学习的视听情感识别模型和一种基于注意力的融合方法。我们评估了不同模态融合方法在其中一种模态不存在或存在噪声的情况下的鲁棒性,并提出了一种提高模型鲁棒性的方法。重要的是,所提出的方法还提高了在两种模式都存在的(理想)标准设置下的性能。
2023-04-08 17:49:42 774
原创 Understanding and Constructing Latent Modality Structures in Multi-Modal Representation Learning
在本文中,我们研究了多模态表示学习中的潜在模态结构。我们分析和检查了潜在特征空间中的模态差距,并揭示了将模态差距减少到零并不总是会带来更好的性能。相反,我们主张更有意义的潜在特征结构将有利于下游应用程序。因此,我们设计了三种正则化方法来构造有意义的潜在结构。我们建议从不同角度使用1)深度特征分离损失2)布朗桥损失3)几何一致性损失对潜在特征进行改进。在图像分类、线性探测、视觉问题回答、视觉推理、视觉蕴涵等多种视觉语言任务上的大量实验证实了我们所提出的方法在流行对比表征学习框架上的有效性和可泛化性。
2023-03-20 22:11:45 988
原创 时间建模问题:一种用于语音情感识别的新的时间情感建模方法
语音情感识别通过从语音信号中推断人的情绪和情感状态,在改善人与机器之间的交互方面发挥着至关重要的作用。尽管最近的工作主要集中于从手工制作的特征中挖掘时空信息,但我们探索如何从动态时间尺度中建模语音情绪的时间模式。为了实现这一目标,我们为SER引入了一种新的时间情感建模方法,称为时间感知双向多尺度网络(TIM-Net),它从不同的时间尺度学习多尺度上下文情感表示。具体而言,TIM-Net首先使用时间感知块来学习时间情感表征,然后整合来自过去和未来的补充信息来丰富上下文表征.
2023-03-19 13:07:28 938 2
原创 网页中下载多个视频的解决办法
网络下载管理器。IDM 是一款独特的下载工具,它不仅拥有续传功能并且可以提升你的下载速度最多达5倍。IDM可以充分利用你的下载速度快速下载资源,支持所有的浏览器下载。IDM 的资源嗅探功能非常强大,只需要点击播放器旁边的浮动下载按钮,就能下载网页上正在播放的视频或者歌曲文件,但如果你想批量下载网页视频的话,就需要用到 IDM 的另一个功能——站点抓取。
2023-03-18 16:29:03 2759 1
原创 模型调试过程中遇到的小错误
调试论文:A proposal for Multimodal Emotion Recognition using aural transformers and Action Units on RAVDESS dataset中的模型遇到的小错误
2023-03-12 15:56:14 615
原创 python之items()的用法
2022年5月5日,今天学习算法时,看到了一个之前未见过的函数,记录一下这个函数的用法。Python 字典(Dictionary) items() 函数以列表返回可遍历的(键, 值) 元组数组。代码如下:d = {'one':1, 'two':2, 'three':3}print(d.items())print(type(d.items()))代码执行结果:代码样例:# 当两个参数时for key, value in d.items(): print(key+":"+str(v
2022-05-05 15:13:24 11086 2
原创 python刷题常用知识点
今天是五月一日,劳动节。闲来无事,准备写一下,最近刷题的一些感悟和总结经常使用的 python 基础语法。1、输入 \ 输出方法常见的输入就是input(),默认输入的类型为字符串。如果想要将输入内容转化为其他类型,直接可以进行类型转换。# 单一的输入,将输入的内容转化为自己想要的类型n = int(input())m = float(input())# 多值输入转换为想要的类型,包括一维数组输入,两个值输入,三个值输入list1 = list(map(int, input().split()
2022-05-01 20:39:42 1034
原创 python之完数
1、题目描述一个数如果恰好等于不包含它本身所有因子之和,这个数就称为"完数"。 例如,6的因子为1、2、3,而6=1+2+3,因此6是"完数"。编程序找出N之内的所有完数,并按下面格式输出其因子 。2、输入输出样例输入1000样例输出6 its factors are 1 2 328 its factors are 1 2 4 7 14496 its factors are 1 2 4 8 16 31 62 124 2483、解决方案首先,取得这个数的所有因数存入数组,然后对数组中
2022-03-10 21:35:03 7429
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人