深度残差网络_深度残差收缩网络:借助注意力机制实现特征的软阈值化

本文介绍了深度残差收缩网络,它结合深度残差网络、软阈值函数和注意力机制,旨在处理强噪声或冗余数据。通过自动设置阈值,该网络能适应不同样本的噪声含量,避免了手动设置阈值的难题。网络结构与普通深度残差网络相似,但使用软阈值化代替重新加权,以实现特征的软阈值化。
摘要由CSDN通过智能技术生成
b3b95172240f2e614f1d83b43fc4964c.gif 839823f870e62b7c797c94a7b44995b1.png

作者 | 哈尔滨工业大学(威海)讲师 赵明航

本文解读了一种新的深度注意力算法,即深度残差收缩网络(Deep Residual Shrinkage Network)。

9aa5dca8f08cdfa5fbb5377de8cd03e5.png

从功能上讲,深度残差收缩网络是一种面向强噪声或者高度冗余数据的特征学习方法。本文首先回顾了相关基础知识,然后介绍了深度残差收缩网络的动机和具体实现,希望对大家有所帮助

f456b58d92017cd8de1a0ab9085a7c53.png

相关基础

深度残差收缩网络主要建立在三个部分的基础之上:深度残差网络、软阈值函数和注意力机制。

1.1 深度残差网络

深度残差网络无疑是近年来最成功的深度学习算法之一,在谷歌学术上的引用已经突破四万次。相较于普通的卷积神经网络,深度残差网络采用跨层恒等路径的方式,缓解了深层网络的训练难度。

深度残差网络的主干部分是由很多残差模块堆叠而成的,其中一种常见的残差模块如下图所示。

8b5e9ec90a2f96211759dfeefda9ad0f.png

1.2 软阈值函数

软阈值函数是大部分降噪方法的核心步骤。首先,我们需要设置一个正数阈值。该阈值不能太大,即不能大于输入数据绝对值的最大值,否则输出会全部为零。

然后,软阈值函数会将绝对值低于这个阈值的输入数据设置为零,并且将绝对值大于这个阈值的输入数据也朝着零收缩,其输入与输出的关系如下图 (a) 所示。

a126f28ecad48935dcac8073ff1986f5.png

软阈值函数的输出 y 对输入 x 的导数如上图 (b) 所示。我们可以发现,其导数要么取值为 0,要么取值为 1。从这个角度看的话,软阈值函数和 ReLU 激活函数有一定的相似之处,也有利于深度学习算法训练时梯度的反向传播。

值得注意的是,阈值的选取对软阈值函数的结果有着直接的影响,至今仍是一个难题。

1.3注意力机制

注意力机制是近年来深度学习领域的超级研究热点,而 Squeeze-and-Excitation Network (SENet)则是最为经典的注意力算法之一。

如下图所示,SENet 通过一个小型网络学习得到一组权值系数,用于各个特征通道的加权。这其实是一种注意力机制:首先评估各个特征通道的重要程度,然后根据其重要程度赋予各个特征通道合适的权重。

4fe164012ad1a41a98b27a8eaad69dfb.png

如下图所示,SENet 可以与残差模块集成在一起。在这种模式下,由于跨层恒等路径的存在,SENet 可以更容易得到训练。另外,值得指出的是,每个样本的权值系数都是根据其自身设置的;也就是说,每个样本都可以有自己独特的一组权值系数。

2a7a9736692ff25ad419a40ccec3090e.png 52266e7cbc95c073410a1de2b330d6c9.png

深度残差收缩网络

接下来,本部分针对深度残差收缩网络的动机、实现、优势和验证,分别展开了介绍。

2.1 动机

首先,大部分现实世界中的数据,包括图片、语音或者振动,都或多或少地含有噪声或者冗余信息。

从广义上讲,在一个样本里面,任何与当前模式识别任务无关的信息,都可以被认为是噪声或者冗余信息。这些噪声或者冗余信息很可能会对当前的模式识别任务造成不利的影响。

其次,对于任意的两个样本,它们的噪声或冗余含量经常是不同的。换言之,有些样本所含的噪声或冗余要多一些,有些要少一些。这就要求我们在设计算法的时候,应该使算法具备根据每个样本的特点、单独设置相关参数的能力。

在上述两点的驱动下,我们能不能将传统信号降噪算法中的软阈值函数引入深度残差网络之中呢?软阈值函数中的阈值应该怎样选取呢?深度残差收缩网络就给出了一种答案。

2.2 实现

深度残差收缩网络融合了深度残差网络、SENet 和软阈值函数。如下图所示,深度残差收缩网络就是将残差模式下的 SENet 中的“重新加权”替换成了“软阈值化”。

在 SENet 中,所嵌入的小型网络是用于获取一组权值系数;在深度残差收缩网络中,该小型网络则是用于获取一组阈值。

6c114ae775a33d38d68601a2d74dc954.png

为了获得合适的阈值,相较于原始的 SENet,深度残差收缩网络里面的小型网络的结构也进行了调整。具体而言,该小型网络所输出的阈值,是(各个特征通道的绝对值的平均值)×(一组 0 和 1 之间的系数)。

通过这种方式,深度残差收缩网络不仅确保了所有阈值都为正数,而且阈值不会太大(不会使所有输出都为 0)。

如下图所示,深度残差收缩网络的整体结构与普通的深度残差网络是一致的,包含了输入层、刚开始的卷积层、一系列的基本模块以及最后的全局均值池化和全连接输出层等。

bc99ebc9ecd54c19712082d24369dfe4.png

2.3 优势

首先,软阈值函数所需要的阈值,是通过一个小型网络自动设置的,避免了人工设置阈值所需要的专业知识。

然后,深度残差收缩网络确保了软阈值函数的阈值为正数,而且在合适的取值范围之内,避免了输出全部为零的情况。

同时,每个样本都有自己独特的一组阈值,使得深度残差收缩网络适用于各个样本的噪声含量不同的情况。

c2c3647645f710522666b1afc26a34b9.png

结论

由于噪声或者冗余信息是无处不在的,深度残差收缩网络,或者说这种“注意力机制”+“软阈值函数”的思路,或许有着广阔的拓展空间和应用范围。

论文链接:

https://www.paperweekly.site/papers/3397

代码链接:

https://github.com/zhao62/Deep-Residual-Shrinkage-Networks

【end】

对存在潜伏期的新冠肺炎,快速分析其传染关系及接触关系,积极采取隔离、观察和治疗措施是非常有利的防控疫情的科学防控依据。

周四(明晚)20点,我们一起来看Sophon KG如何追寻新冠病毒轨迹,运用AI技术、工具建立相关知识图谱,通过确诊案例的亲属、同事和朋友的关系网找出密切接触者进行及时隔离,同时刻画出确诊案例的活动轨迹,找到其关系网之外的密切接触者及病毒可能的“行凶环境”。

38df35f1d3577004e165878df656741a.png推荐阅读
  • 百万人学AI:CSDN重磅共建人工智能技术新生态

  • 154万AI开发者用数据告诉你,中国AI如何才能弯道超车?

  • 技术大佬的肺腑之言:“不要为了AI而AI”!| 刷新 CTO

  • 悼念前端大牛司徒正美

  • 业内最大的“空气币”——以太坊?

  • Spark3.0发布了,代码拉过来,打个包,跑起来!

你点的每个“在看”,我都认真当成了AI

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值