LEARNING TO MATCH TRANSIENT SOUND EVENTS USING ATTENTIONAL SIMILARITY FOR FEW-SHOT SOUND RECOGNITION

4. CONCLUSION

我们引入了一个简单的注意力相似性模块,用于小样本声音识别,以生成输入的注意力表示。 它允许模型在匹配相对短的声音事件时忽略不相关的背景噪声。 大量实验表明,注意力相似性不断提高各种现有方法在无噪声或有噪声剪辑数据集上的性能。 未来,我们计划扩展模型以采用多标签学习设置进行少量声音识别。

2. APPROACH

2.1. Few-shot sound recognition

在我们的工作中,我们使用简单而强大的 ConvNet 架构作为我们的特征学习模型 fcnn(·)。 该模型可以通过最小化以下目标函数来学习:在这里插入图片描述其中 L 是损失函数,θ 是网络的参数,R(θ) 是避免过拟合的正则化项。
与用于少样本学习的最新算法 [8,10,11] 类似,我们的损失函数基于交叉熵:在这里插入图片描述
2.2. Attentional similarity

为了处理可变长度输入,大多数方法 [8, 11,15-17] 使用池化函数来聚合特征图 X ∈ RM×T 以产生固定长度向量 RM×1,其中 M 是通道数 T 是时间维度的数量。 相似度函数可以写为在这里插入图片描述其中 pool(·) 是池化函数, dist(·) 是两个向量之间的任何距离函数,例如内积。

二阶相似度:最近关于二阶相似度估计的工作 [15] 使用之前 ConvNet 的最后一层的特征图计算两个输入之间的逐段(二阶)segment-by-segment (second-order)相似度 XTq Xj ∈ RTq×Tj 汇集。 与固定长度向量(剪辑级特征)相比,该方法允许模型使用段级特征来学习两个输入之间的时间相关性。 二阶相似度可以写成:在这里插入图片描述受到这种方法的启发,我们建议学习一个权重 Wqj ∈RTq×Tj 来生成注意力二阶相似度,以捕捉逐段相似度的重要性。 我们可以重写方程 (4) 如:在这里插入图片描述按照 [18] ,我们可以通过将权重 Wqj 近似为 rank-1 近似值来计算注意力相似度,W = AjATq 其中 Aj,Aq ∈RTj×1,RTq×1。 然后,我们可以推导出以下注意力相似度函数:在这里插入图片描述
其中 Tr(·) 是跟踪算子,Aq 是通过使用另一个卷积层堆栈 fatt(·) 计算的注意力向量,通过输入 Xq 来找到重要的片段。 方程。 (8) 使用注意向量 Aq 和 Aj 计算逐段相似度的加权平均值。 更重要的是,方程式 (8) 式可改写为:
在这里插入图片描述最终方程可以解释为我们通过使用两个注意力向量 XqAq 和 XjAj 之间的内积来计算相似度得分。 这允许我们用常见的距离函数(例如,余弦相似度或欧几里得距离)替换内积,以测量两个注意力向量之间的距离。 因此,一般来说,注意力相似度也可以计算为 dist(XqAq,XjAj)。

参考文献18《Attentional Pooling for Action Recognition》

3.2 Network Architecture

我们现在描述我们的网络架构以实现上述注意力池。 我们从最先进的基础架构 ResNet-101 [20] 开始。 它由一堆“模块”组成,每个模块都包含多个卷积、池化或恒等映射流。 最后生成一个n1×n2×f的空间特征图,平均池化得到一个f维向量,然后使用线性分类器进行分类。
在这里插入图片描述(a) 将我们的注意力池方法可视化为 2 阶池的 rank-1 近似值。 通过矩阵乘法的明智排序,可以避免计算二阶特征 XT X,而是计算两个注意力图的乘积。 自上而下的注意力图是使用特定于类的权重 ak 计算的,而自下而上的注意力图是使用与类无关的权重 b 计算的。 我们将通过图 2 中的方法学习到的自上而下和自下而上的注意力图可视化。

在这里插入图片描述(b)我们在工作中探索了两个架构,在第3.2节中解释了这两个架构。

Figure 1: Visualization of our derivation and final network architectures.

我们的注意力模块插入在空间特征图之后的最后一层。 如图1b(方法1)所示,我们使用线性分类器(Xb)预测与最后一个特征图具有相同空间分辨率的单通道自下而上显着图。 类似地,我们还生成了 n1 ×n2 ×K 维自上而下的注意力图 Xa,其中 K 是类数。 将两个注意力图相乘并进行空间平均以生成 K 维输出预测 ((Xa)T (Xb))。 这些操作相当于先将特征乘以显着性(XT (Xb)),然后通过分类器(a(XT (Xb)))。

Pose 姿势:虽然这个不受约束的注意力模块会自动学习关注相关部分并显着提高准确性,但我们从以前的工作 [8] 中汲取灵感,并使用人体姿势关键点来引导注意力。 如图 1b(方法 2)所示,我们在最后一层之上使用两层 MLP 来预测 17 通道热图。 前 16 个通道对应人体姿态关键点并针对标记(或使用 [4] 检测到)姿势产生 l2 损失)最后一个通道用作无约束的自下而上注意力图,如前所述。 我们将这种方法称为pose-regularized attention,它可以被认为是先前注意力图的非线性扩展。

以前的工作 [8]:Pcnn

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于emtdc-transient分析的PSCAD电力系统来说,一个全面的资源是非常重要的。emtdc-transient分析是一种模拟电力系统中瞬态现象的方法,包括电力系统中的瞬变故障、电磁干扰、电压暂降、瞬时闪络等。它可以帮助工程师更好地了解电力系统中的瞬变现象,并采取相应的措施来提高系统的鲁棒性和可靠性。 在PSCAD电力系统中进行emtdc-transient分析时,有几个重要的资源可以提供全面的支持。首先,软件手册是非常重要的资源之一。软件手册详细介绍了如何使用PSCAD软件进行emtdc-transient分析,包括各种功能和工具的操作方法,以及例如建模和仿真的步骤。 其次,用户指南也是一个重要的资源。用户指南提供了更具体的说明,包括如何使用不同的模型和元件、如何调整参数以及如何分析emtdc-transient现象。它还提供了示例和案例研究,帮助用户更好地理解和应用emtdc-transient分析。 此外,培训课程和研讨会也是一个宝贵的资源。PSCAD的开发商通常会组织培训课程和研讨会,介绍emtdc-transient分析的最新概念和技术,以及如何在PSCAD中进行具体的应用。通过参加这些培训和研讨会,工程师可以与其他专业人员交流经验和知识,从而更好地掌握emtdc-transient分析。 最后,在线论坛和社区也是一个重要的资源。PSCAD的用户社区通常非常活跃,工程师可以在这些社区中提问、讨论和分享经验。这是一个交流和学习的平台,可以获得来自其他用户的帮助和指导,解决具体的emtdc-transient分析问题。 综上所述,要进行emtdc-transient分析的PSCAD电力系统,一个全面的资源包括软件手册、用户指南、培训课程和研讨会以及在线论坛和社区。通过利用这些资源,工程师可以更好地了解和应用emtdc-transient分析,并提高电力系统的鲁棒性和可靠性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值