深度学习和神经网络

最新推荐文章于 2022-08-11 12:30:04 发布

weixin_42307034

最新推荐文章于 2022-08-11 12:30:04 发布

阅读量714

点赞数

本文链接：https://blog.csdn.net/weixin_42307034/article/details/87642984

版权

深度学习和神经网络

二分法

比如对图片是否是猫进行分类，首先将一张图片红绿蓝三种颜色对应的像素强度值都写出来，假设一张图片是64x64的，那就会产生3个相应的矩阵 3x64x64。
在这里插入图片描述
我们要做的是将这三个对应的矩阵中的像素强度值都取出来，放入一个特征向量x中，如下：

x的维度是64x64x3，n=64x64x3

x特征向量不同的训练样本放在不同的列上。

计算过程：

神经网络

在这里插入图片描述

激活函数

g(z)=tanh(z),y=[-1,1],比sigmoid函数效果要好，因为这样激活函数的平均值为0，不用数据中心化为0了，使得下一层的数据学习更方便一点。
在二元分类的时候，用sigmoid function作为输出层。
修正线性单元（RELU)
a=max(0,z),可以用作非二元分类的输出层激活函数，z=0时导数没有定义，可以自己给他附一个值。现在是激活函数的默认选择了。他的好处是激活函数的导数和0相差很大，因此比sigmoid和tanh函数都要快。

为什么要用激活函数呢？
如果不用激活函数，那么模型的输出相当于输入特征的线性组合。那不如全部去掉隐藏层，线性隐藏层一点用都没有。

随机初始化权重

随机初始化权重是很重要的，在神经网络中，不能初始化为0，那样将会完全无效。将b初始化为全0没多大问题，但是初始化w为全0就会有问题了，隐藏单元在计算完全一样的工作，导致完全对称问题。
通常我们把权重矩阵初始化为非常非常小的随机值。因为如果权重很大的话，w很大，z就会很大或者很小，这样根据sigmoid或者tanh函数，斜率很小，梯度下降很小，从而减慢学习速度。

深度神经网络

在这里插入图片描述

为什么选择深度神经网络？
如果你在建一个人脸识别或是人脸检测系统，可以把神经网络的第一层当作特征探测器或是边缘探测器，探测人脸上的不同的边缘特征，比如眼镜、鼻子、嘴巴，之后几层再将这些特征组合在一起。
在这里插入图片描述

在这里插入图片描述

参数和超参数

在这里插入图片描述

改善神经网络

在这里插入图片描述

训练集和验证集误差来自同一分布。
通过构建一个更大的神经网络或者使用更多的数据能够同时减少方差和偏差的问题，在现代神经网络中只要正则适度，构建更大的网络能够减少偏差而不对方差有过大的影响，方差也是，通常不用过多考虑两者之间的平衡。
正则化
在这里插入图片描述
神经网络正则化

dropout
设置每个节点在每个样本中保留或存在的概率，每次训练一个很小的神经网络
反向随机失活
去掉一定概率的神经元，剩下的神经元的激活值要除以keep_drop（概率值），确保期望值不变。
在这里插入图片描述
对于不同的样本，清除的单元也不同，在测试阶段，不需要dropout.
为什么dropout会有效果？因为每一个输出层都不能完全依赖任何一个输入特征，因为他随时有可能被清除，我不会把所有的赌注都放在一个节点上，不会给任何一个输入增加太多权重，因为它有可能被删除。因此该单元通过这种方式积极传播开，并为单元的四个输入增加一点权重。dropout会产生收缩权重的平方范数的效果。每一层的keep_drop也可以不同。
early stopping
在这里插入图片描述
归一化
每个数据减去平均值再除以方差

记得要用相同的参数来归一化测试集和训练集，使用归一化会更容易优化，可以使用更大的步长。
随机初始化权重
w=2/n

梯度检测
优化算法mini-batch

指数加权平均
在这里插入图片描述

只占一行内存，需要的内存非常少，每次只需要不断更新就可以了
偏差修正

Momentum

RMSprop

Adam

学习率衰减