第四周 2020李宏毅《机器学习》-- Tips 4 Deep Learning 学习笔记

最新推荐文章于 2024-10-17 15:37:44 发布

大齐不胖爱编程

最新推荐文章于 2024-10-17 15:37:44 发布

阅读量206

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_43836026/article/details/110714892

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

deep learning

在这里插入图片描述

New activation function

当训练集的结果不是很好的时候
可能是neural network的架构不是很好
可以换一些新的activation function去得到比较好的结果
80年代常用的activation function 是 sigmoid
如果用sigmoid函数，会导致当输入小时，靠近输入的值对梯度的值是小的。

解决方法：ReLU
将 Rectified Linear Unit当作activation function 在这里插入图片描述
当input>0，则output=input
当input<=0,则output=0

使用ReLu 的原因

计算快
生物上存在原因
无穷个sigmiod函数叠加
可以解决 vanishing gradient problem

ReLU如何解决 vanishing gradient problem
当经过activation后输出为0，就可以当作这个network没有了，并且activation后输出不为0 ，且和输入一样，就不会有更小的梯度了。

Maxout
在这里插入图片描述
Maxout 可以用来当activation function
现将输入乘以权重，再取最大值，就可以得到一个neural.
然后用backpropagation 去train,由于有多个输入，就会训练到各个权重参数。

Relu可以被看作Maxout的一种。
在这里插入图片描述
先得到两个输入与输出z1、z2的关系.再将这两个z1、z2比较得到最大值。就能看到和ReLU的图像一样

Adaptive Learning rate

RMSProp–均方根梯度下降法
在这里插入图片描述

early stopping

当learning rate调的对的话，训练时total loss就会越来越小
但由于training set和testing set（有label的）的分布不一定一样，就会导致testing set的total loss可能上升。所以我们需要找到resting set的loss 最小的地方

Regularization

让我们得到的值变得平滑
在这里插入图片描述 $L(\theta)是原始的损失$

按上图的计算权重方法，权重就会越来越小，就是weight decay

dropout

在training时，在update参数之前，对每个neural(包括input)做sampling, 有些neural在sample以后，就会被丢掉，相对应的weight也会被丢掉。
在dropout以后，这个network就会变得细长。dropout后，training的结果可能会变差，这正是dropout的目的，让training变差，testing变好

在testing时
如果不做dropout，就需要将testing中的w手动乘以（1-p）%（p是training时的dropout率）