欢迎转载,可以关注博客:http://blog.csdn.net/cqy_chen
深度学习书籍推荐:https://item.jd.com/12128543.html
深度学习课程推荐:https://www.coursera.org/learn/neural-networks/home/welcome
TensorFlow:http://www.tensorfly.cn/ http://www.tensorflow.org/
题目可能不全,因为有字数限制,不好意思,可以参考:
https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/
概要
在上节中学校到了神经网络算法,通过一层一层的神经元提取数据的模型,最后得到结果。那么这个神经网络到底需要多少层,多少的神经元呢?这是一个非常困难的事情。本节主要介绍深度神经网络。
深度神经网络
我们将只有少数基层隐层的神经网络称之为浅层神经网络, 而有很多的隐层的神经网络称之为深度神经网络。我们简要对比下:
Tables | 浅层神经网络 | 深度神经网络 |
---|---|---|
训练 | 训练相对简单 | 训练复杂,需要不断回推权重 |
网络结构 | 相对简单 | 比较复杂 |
模型能力 | 只要神经元数量足够,很强大 | 很强大 |
特别是最近几年深度学习异常火热,在视觉和语音方面有着比较好的实践。因为通过更多的层次,大家相信这些对应着不同的特征提取。
比如下面的进行数字识别,经过很多层,我们相信某一层提取了图片的一些特征,最后在高维的特征上就可以更好的进行辨别。
那么设计深度神经网络就是通过一层一层的特征提取,每次转换只需要比较简单的转换,而如果只是少数基层,则需要比较复杂的转换。
对于那种非常原始的特征,比如像素,声音等,比较适合深度学习,不断提取特征。深度学习也面临这一些困难:
1)模型结构决定比较复杂,通常的解决方法是在深度网络结构中加入先验知识,比如CNN,RNN等都是在深度网络结构中进行了变种,CNN可以参考:http://blog.csdn.net/cqy_chen/article/details/78959687
2)模型复杂度比较高,接近办法就是:加大数据量,正则化。比如采用denoising,dropout等方法
3)不是凸函数,很难得到最优解,一般是使用局部解。这个时候一般只能选择比较好的起始点。
4)计算量大,采用更强的的硬件,GPU上运算,并行化等。
比较重要的是正则化以及初始化。
自动编码机
首先看看我们如何初始化权重:
那么怎么来确定一层一层的权重呢?
基本思想是这样的:
既然每一层的权重是对上一层的数据做特征提取,那么如果我的权重能够保留上一层的原始数据不丢失是不是就是好的?就是说通过这层权重的转换可以将数据提取部分特征,同时也可以将这部分特征近似的转换到上一层的数据。就像压缩数据与解压数据一样。
如下图:
这样的神经网络结构称之为自动编码机,一般会让
wij=wji
减少模型的复杂度。
通过中间一层将数据编码,提取数据的部分特征。然后通过后面一层解码。这就像告诉了我们的一些数据的潜藏的特征。
核心在于学习数据的潜藏特征
基本的自编码机采用的是平方错误:
∑Nn−1(g(xn)−yn)2
自编码机还可以做维度的压缩,只要中间的神经元少于输入的神经元。
深度神经网络中就可以采用自动编码机来初始化权重。
去噪自动编码机
我们知道在深度神经网络中,
dvc=O(VD)
。所以我们要想办法去做正则化。比如
1)dropout方法
2)权重消减法
3)网络结构变更,CNN之类
4)早停法
这里讲解另一种方法,如下图:
随着数据的噪音越大,模型越容易过拟合。
所以要想模型变得更好,一个简单的想法就是去掉这些噪音,比如去掉错误的数据等;另一个想法是:将噪音添加到资料中,这怎么搞?听我慢慢道来。
在自动编码机中,我们的思想是
经过转换之后,
g(x)≈x
,如果我们在输入数据中添加一点点噪音,也要使得式子成了,那么是不是就是自动编码机具备了去噪音的能力?就是
g(x˜)≈x
这样即使资料中有点点噪音,我们的模型还是能够忍受,这样鲁棒性就更强了。
这不就是正则化么?
主成分分析
因为前面都是讲解的通过非线性的转换,因为如果采用线性的转换,那么神经网络便不具备了非线性处理的能力,但是看看自动编码机,这样我们是不是可以采用线性转换?如下:
同时这里限定一些条件:
1)没有偏置项,就是去掉 w0
2) w(1)ij=w(2)ji=wij ,限定两边的权重相等,正则化。记那么权重矩阵 W=[wij] 是一个 d×d˜
3)设定, d˜<d ,这样就不会出现直接转换。
所以通过这样的设定,函数变为;
这样就就是:
所以要使得x经过编码解码转换两者差异达到最小, W=[wij] 是 由于 WWT 是半正定,那么。可以设定:
V是一个 d×d 的正交矩阵,且: VVT=I
Γ 是一个 d×d 的矩阵,但是只有对角线上部分有值,且特征值个数应该是不大于 d˜ 的。
WWTx 其实就是表示首先将一个向量进行旋转或者平移,然后投影到另一个空间,最后再反转回到原始空间。
同时看到另一式子:
所以最佳化变成了:
所以这个看起来 Γ 这个只有对角线的值的矩阵,每个元素都应该是1。如下:
所以优化变为:
我们再改写下:
这个可以采用拉格朗日乘子法得到:
所以怎么求解v呢?不就是矩阵 XXT 的特征值组成的向量么?
这跟主成分分析对比下。
参考: http://blog.csdn.net/cqy_chen/article/details/77750114
所以在线性的自编码机中,我们希望的是资料投影到另外的空间能够最大可能的返回,就是线性的表现资料的特征。这个其实就是PCA的思想。
一般情况下这个可以用来进行维度压缩,当我们的模型出现过拟合的情况,或者维度太高,计算过于复杂,可以采用这个方法进行降维。
欢迎转载,可以关注博客:http://blog.csdn.net/cqy_chen