【Learning Notes】基于 boosting 原理训练深层残差神经网络

最新推荐文章于 2022-06-28 15:27:16 发布

MoussaTintin

最新推荐文章于 2022-06-28 15:27:16 发布

阅读量3.5k

点赞数 2

分类专栏：原创人工智能机器学习深度学习文章标签：神经网络 boosting 提升方法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jackytintin/article/details/73351199

版权

本文介绍了如何利用Boosting理论逐层训练深度残差神经网络，称为BoostResNet。该方法将残差网络视为弱分类器的集成，通过裂项求和提升（Telescoping Sum Boosting）实现。这种方法减少了内存占用和计算量，允许动态确定网络层数，并且可以使用非SGD优化方法。

摘要由CSDN通过智能技术生成

Huang et al. Learning Deep ResNet Blocks Sequetially using Boosting Theory.

文章指出一种基于 boosting（提升）原理，逐层训练深度残差神经网络的方法，并对性能及泛化能力给出了理论上的证明。

1. 背景

1.1 Boosting

Boosting[1] 是一种训练 Ensemble 模型的经典方法，其中一种具体实现 GBDT 更是广泛应用在各类问题上。介绍boost的文章很多，这里不再赘述。简单而言，boosting 方法是通过特定的准则，逐个训练一系列弱分类，这些弱分类加权构成一个强分类器（图1）。

这里写图片描述
图1 Boosting 方法原理图【src】

1.2 残差网络

残差网络[2]目前是图像分类等任务上最好的模型，也被应用到语音识别等领域。其中核心是 skip connect 或者说 shortcut（图2）。这种结构使梯度更易容向后传导，因此，使训练更深的网络变得可行。

这里写图片描述
图2. 残差网络基本block[2]

在之前的博文中，我们知道，一些学者将残差网络视一种特殊的 Ensemble 模型[3,4]。论文作者之一是Robert Schapire（刚注意到已经加入微软研究院），AdaBoost的提出者（和 Yoav Freund一起）。Ensemble 的观点基本算是主流观点（之一）了。

2. 训练方法

2.1 框架

这里写图片描述
图3. BoostResNet 框架

残差网络

g t + 1 (x) = f (g t (x)) + g t (x)

$g_{t+1}(\mathbf{x}) = f(g_t(\mathbf{x}) ) + g_t(\mathbf{x})$

hypothesis module

$o t (x) = s o f t m a x (W T t \cdot g t (x)) \in R C$ $o_t(\mathbf{x}) = softmax(\mathbf{W}^T_t \cdot g_t(\mathbf{x})) \in R^C$
其中 $C$ 为分类任务的类别数。
即这是一个线性分类器（Logistic Regression）。
weak module classifier

h t (x)

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。