DNN学习随笔

最新推荐文章于 2024-05-13 19:58:13 发布

mafeichao

最新推荐文章于 2024-05-13 19:58:13 发布

阅读量2.6k

点赞数

本文链接：https://blog.csdn.net/mafeichao/article/details/50364057

版权

1，DNN源于早起人工智能联结主义学派，试图通过模拟人脑的机制，来实现人工智能。

2，DNN在计算机领域的研究和实现可以追溯到50、60年代的感知器算法，感知器算法是一个单层阶跃激活函数的神经元，用于解决二分类问题，能证明在样本线性可分的时候可以收敛。它无法解决XOR这样的线性不可分情况。70、80年代多层感知机发明，BP算法用来求解，理论上可以逼近任意连续函数，通常只有1个隐层，隐层多起来的时候参数太多收敛时间太长，效果也不好。直到最近几年，分布式存储和运算系统的发展，解决了运算存储资源的瓶颈，研究者也发现了增加深度比增加宽度有各种方面的优势，并且提出了各种优化算法，尤其是在图像、语音等多媒体领域的突破性进展，于是DNN火了。

3，现在DNN大致有3类：前馈网（包括普通MLP、CNN等）、反馈网（RNN等）以及能量网（RBM、DBN等）。训练算法基础是BP，不同在于激活函数选择上的差异（修正线性单元等）、权重初始化的差异（是否pre-training）等。主要解决训练过程中的梯度弥散或者爆炸，以及收敛速度和效果等问题。

4，先以MLP（多层感知机）为例理解BP算法：

一个n层的MLP，需要训练n-1个权重矩阵和偏执向量。wl,i,j代表第l层i，j元素的权值，deta wl,i,j代表梯度下降算法的权重更新量：

deta wl,i,j = yeta * deta l,i * xl,i,j

其中yeta是学习率，deta l,i表示第l层的i单元的误差项，xl,i,j表示l层的第i个元素的第j个输入。

大致推倒过程为，设误差为E，则E对wl,i,j求导：

E/wl,i,j = E/net l,i * net l,i/wl,i,j = E/net l,i * xl,i,j

分两种情况讨论：

1）l是输出层：

deta l,i = -E/net l,i = -E/oi * oi/net l,i

2）l是隐藏层：

deta l,i = E/net l,i = sum (E/net l+1,k * net l+1,k / net l,i)（根据链式法则，通过影响下游（l+1层）链接节点的净输入影响最终输出）

= sum (-deta l+1,k * net l+1,k/ol,i * ol,i/net l,i)

= sum (-deta l+1,k * wl,k,i * ol,i/netl,i)

deta l,i的计算过程中都会乘以激活函数的梯度ol,i/net l,i，当激活函数是sigmoid的时候，导数的取值范围在0-0.25之间，当误差沿着网络逐层回传的时候，会不断衰减，当网络层数比较多的时候，越靠前的权重更新越少，出现梯度弥散问题。

5，再看看CNN网络：

CNN受启发与生理上的感受野原理，来修改MLP中的层与层之间的全连接方式，使得连接方式更符合生物原理。由于采用局部连接，并且权值共享，因此可以大幅减少需要训练的参数规模，但是由于每个特征都由局部连接来自动抽取，会导致特征数目膨胀不利于后续的监督任务学习，所以又引入的池化，来对局部特征进行聚合采样，减少特征冗余增加监督学习任务的鲁棒性。举个例子：

假设有100*100的图像，我们需要借助DNN学习100个特征供后续的监督学习使用。如果采用MLP则需要学习10^6+100个参数。但是如果使用CNN，每个感受野感受5*5的片段，利用权值共享每个特征只需要学习5*5 + 1各参数，总共100*（5*5+1）个参数。参数个数降低了3个数量级。但是由于每个特征经过卷积之后，会输出（100-5+1）*（100-5+1）个局部特征值，100个特征就是100*96*96，特征个数增加了2个数量级，对后续的监督学习来讲是不利的。因此引入池化，对这100个特征里面的每组特征点进行下采样，比如max pooling取一个区域的最大值，average pooling取一个区域的均值。如果用8*8的感受野去采样，则最后特征数变为100*12*12，就可以把特征数限制在一个可以接受的合理范围内。

mafeichao

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
DNN学习随笔

1，DNN源于早起人工智能联结主义学派，试图通过模拟人脑的机制，来实现人工智能。2，DNN在计算机领域的研究和实现可以追溯到50、60年代的感知器算法，感知器算法是一个单层阶跃激活函数的神经元，用于解决二分类问题，能证明在样本线性可分的时候可以收敛。它无法解决XOR这样的线性不可分情况。70、80年代多层感知机发明，BP算法用来求解，理论上可以逼近任意连续函数，通常只有1个隐层，隐层多起来的时
复制链接

扫一扫