2024.9.23-2024.9.29组会报告

论文解决的问题

人 脸 在 自 然 场 景 中 存 在光照不均匀、遮 挡 和 拍 摄 角 度 等 问 题,导 致 难 以 准确识别其情绪状态.

关于姿态情绪的识别,同一种姿态

“有效融合人物与场景信息,在 EMOTIC 数据集下能 够明显提高情绪识别率” (pdf)

论文使用的方法

不是简单的提取特征然后进行分类,那他怎么做的呢

在现有方法基础上,本模型关注了任务在场景中的不确定性以及场景信息的复杂性,提出了一种基于注意力机制的多尺度网络情绪识别模型。有两个分支,对于人物,提取特征的同时使用注意力机制学习当前人物情绪的置信度;

对于场景,为了防止与人物特征的重复提取,对场景中主要人物增加掩模。使用特征金字塔提取不同尺度的特征图,其中高阶语义使用空间注意力机制学习场景中的主要信息,最后通过早期融合方式融合双分支网络获得情绪分类的结果。

最终取得的效果与展望

“.网 络 结 构 由 人 物 分 支 与 场 景 分 支 组 成 ,针 对 人 物 分 支 设 计 的 身体注意力机制能够有效预判当前人物对情绪识 别的置信度,针对 场 景 分 支,融 合 空 间 注 意 力 机 制 和 特 征 金 字 塔 可 以 进 一 步 探 索 场 景 中 的 全 局 -局 部 情绪 线 索” (pdf)

“虽 然 本 文 方 法 在 识 别 精 度上有较好的结 果,但 仍 然 有 进 一 步 的 提 升 空 间, 主要原因是在对人物分支以及数据集不平衡的研 究有限,在后续研 究 中,会 考 虑 融 合 行 为 识 别 和 改 进 训 练 策 略 等 方 式 ,提 升 算 法 识 别 的 精 度” (pdf)

涉及到的专有名词

置信度

置信度是衡量模型预测准确性的一个重要指标。在机器学习和统计学中,置信度通常用来表示模型对其预测结果的“信心”程度。不同的模型和方法可能会产生不同的置信度估计。

1. **基于熵的置信度估计**:这种方法通过计算预测概率的熵来评估置信度。熵是信息论中用来衡量不确定性的指标,其值越低,表示模型对其预测结果越有信心。一种简单的基于熵的置信度测量方法是使用吉布斯熵,通过对熵值进行归一化处理,可以得到一个介于0和1之间的置信度分数。

2. **基于距离的置信度分数**:在多模态融合分类网络中,提出了一种基于距离的置信度分数计算方法。这种方法通过在嵌入空间中计算样本之间的距离来进行局部密度估计,从而计算模型的置信度分数。这种方法不仅可以用于单模态模型,还可以扩展到多模态融合模型中,用于量化不同模态数据对模型决策的影响。

3. **系统仿真置信度评估**:在系统仿真领域,置信度评估是确保仿真结果可靠性的关键步骤。这通常涉及到仿真模型的验证、验证和认证(VVA)过程。通过假设检验法(如U检验、K-S检验等)和动态性能评估方法(如卡尔曼滤波、频谱分析等),可以对仿真系统的置信度进行评估。

在实际应用中,选择合适的置信度评估方法取决于具体的任务需求、数据类型和模型结构。例如,在自动语音识别(ASR)中,基于熵的方法可以提供对单词级预测置信度的快速估计;而在多模态数据融合中,基于距离的置信度分数可以帮助理解不同数据模态对最终决策的贡献。

注意力机制

注意力机制是深度学习中的一种关键技术,它模仿了人类视觉系统关注特定区域的能力,用于提高模型处理复杂数据的能力。注意力模型在多个领域和任务中都有应用,如文本分类、图像描述、情感分析和语音识别等。

在计算机视觉领域,注意力机制通过关注图像的重要部分来降低计算复杂性,同时提高模型的性能。而在自然语言处理领域,注意力机制的引入是为了解决循环神经网络在机器翻译中的某些结构问题。

注意力模型的核心思想是,模型在处理输入数据时,能够聚焦于信息丰富的特定部分,而忽略其他不太重要的部分。这种机制可以通过不同的方式实现,例如自注意力(Self-attention)和多头注意力(Multi-Head Attention)。

自注意力是一种特殊类型的注意力机制,它关联同一序列中的不同位置,以计算序列的表示。这种机制在阅读理解、抽象总结、文本蕴含和学习任务独立的句子表示等任务中取得了成功。

多头注意力通过在不同的表示子空间中并行执行多个注意力函数,允许模型在不同位置联合关注信息。这使得模型能够更丰富地表示数据。

在实际应用中,例如机器翻译,注意力机制可以帮助模型更好地捕捉源语言和目标语言之间的长距离依赖关系。在图像处理任务中,注意力机制可以帮助模型集中于图像中的关键特征,从而提高分类或分割的准确性。

注意力机制的一个重要优势是它可以与基本模型(如循环神经网络或卷积神经网络)一起训练,并且可以通过常规的反向传播进行优化。此外,注意力机制还可以提高模型的可解释性,因为它可以直观地展示模型在做出决策时关注的信息部分。

总的来说,注意力机制是深度学习中一个非常强大和灵活的工具,它能够在多种任务和数据类型中提高模型的性能和解释能力。

深度学习中的上采样和下采样

在深度学习中,上采样和下采样也经常被用来调整数据的维度。例如,在卷积神经网络(CNN)中,上采样层可以用来增加特征图的空间维度,而下采样层(如池化层)则用来减少特征图的空间维度,同时提取重要特征。

过拟合

过拟合是机器学习和深度学习中常见的问题,指的是模型在训练数据上表现得很好,但是在新的、未见过的数据上表现不佳的现象。过拟合通常发生在模型学习到了训练数据中的噪声和细节,而没有抓住数据的真实分布。

为了解决过拟合问题,研究人员提出了多种方法。例如,一种方法是使用非线性系数(Nonlinearity Coefficient, NLC)来度量深度神经网络的过拟合程度。非线性系数是通过分析网络梯度的信息量来预测网络的测试误差,从而帮助设计更优的神经网络结构。

此外,还可以通过以下一些常见的策略来减少过拟合:

1. **数据增强**:通过旋转、缩放、裁剪等方式增加训练数据的多样性。

2. **正则化**:如L1或L2正则化,可以限制模型的复杂度。

3. **Dropout**:在训练过程中随机丢弃一些神经元,减少模型对特定数据的依赖。

4. **提前停止**:在验证集上的性能不再提升时停止训练。

5. **集成方法**:如随机森林或Boosting,通过组合多个模型减少过拟合。

6. **增加数据集的规模**:更多的数据可以提供更丰富的信息,帮助模型泛化。

在实际应用中,还可以通过主成分分析(PCA)来构造神经网络的低维学习矩阵,这种方法可以浓缩预报信息,降维去噪,从而提高模型的泛化能力。通过这些方法,可以有效地减少过拟合,提高模型在未知数据上的表现。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值