李宏毅老师课程：Tips for Deep Learning

最新推荐文章于 2021-02-16 09:10:44 发布

APythonC

最新推荐文章于 2021-02-16 09:10:44 发布

阅读量267

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/APythonC/article/details/107827503

版权

机器学习专栏收录该内容

25 篇文章 0 订阅

订阅专栏

针对training set和testing set上的performance分别提出针对性的解决方法

Recipe of Deep Learning
- three step of deep learning
- Do not always blame overfitting
Good Results on Training Data？
Good Results on Testing Data？

Recipe of Deep Learning

three step of deep learning

deep learning的三个步骤：

define the function set(network structure)
goodness of function(loss function – cross entropy)
pick the best function(gradient descent – optimization)

做完这些事情以后，你会得到一个更好的neural network，那接下来你要做什么事情呢？
在这里插入图片描述

提高model在training set上的正确率
提高model在testing set上的正确率

Do not always blame overfitting

不要看到所有不好的performance就归责于overfitting

右边是testing data图，横坐标是model做gradient descent所update的次数，纵坐标则是error rate(越低说明model表现得越好)，黄线表示的是20层的neural network，红色表示56层的neural network

此时，56层network的error rate比较高，它的performance比较差，而20层network的performance则是比较好的，有些人会得到一个结论：56层的network参数太多了，56层果然没有必要，这个是overfitting
在这里插入图片描述
事实上，在说结果是overfitting之前，需要检查training set上的performance。

对neural network来说，在training set上得到的结果很可能会像左边training error的图，即20层的network本来就要比56层的network表现得更好，所以testing set得到的结果并不能说明56层的case就是发生了overfitting

在做neural network training的时候，有很多问题可以让training set表现的不好，比如说local minimum问题，saddle point问题，plateau问题等等，所以这个56层的neural network，有可能在train的时候就卡在了一个local minimum的地方，于是得到了一个差的参数，但这并不是overfitting，而是在training的时候就没有train好

有人认为这个问题叫做underfitting，但按李宏毅老师的理解，underfitting的本意应该是指这个model的complexity不足，这个model的参数不够多，所以它的能力不足以解出这个问题；但这个56层的network，它的参数是比20层的network要来得多的，所以它明明有能力比20层的network要做的更好，却没有得到理想的结果，这种情况不应该被称为underfitting，其实就只是没有train好而已
在这里插入图片描述

Good Results on Training Data？

在这里插入图片描述

New activation function

activation function

如果你今天的training结果不好，很有可能是因为你的network架构设计得不好。举例来说，可能你用的activation function是对training比较不利的，那你就尝试着换一些新的activation function，也许可以带来比较好的结果

Vanishing Gradient Problem

当把network叠得很深的时候，在靠近input的地方，这些参数的gradient(即对最后loss function的微分)是比较小的；而在比较靠近output的地方，它对loss的微分值会是比较大的

因此当设定同样learning rate的时候，靠近input的地方，它参数的update是很慢的；而靠近output的地方，它参数的update是比较快的

所以在靠近input的地方，参数几乎还是random的时候，output就已经根据这些random的结果找到了一个local minima，然后就converge(收敛)了

这时候参数的loss下降的速度变得很慢，你就会觉得gradient已经接近于0了，于是把程序停掉了，由于这个converge，是几乎base on random的参数，所以model的参数并没有被训练充分，那在training data上得到的结果肯定是很差的在这里插入图片描述

ReLU

现在比较常用的activation function叫做Rectified Linear Unit(整流线性单元函数，又称修正线性单元)，它的缩写是ReLU，该函数形状如下图所示，z为input，a为output，如果input>0则output = input，如果input<0则output = 0
在这里插入图片描述
下图是ReLU的neural network，以ReLU作为activation function的neuron，它的output要么等于0，要么等于input

当output=input的时候，这个activation function就是linear的；而output=0的neuron对整个network是没有任何作用的，因此可以把它们从network中拿掉
在这里插入图片描述
拿掉所有output为0的neuron后如下图所示，此时整个network就变成了一个瘦长的linear network，linear的好处是，output=input，不会像sigmoid function一样使input产生的影响逐层递减

其实ReLU还存在一定的问题，比如当input<0的时候，output=0，此时微分值gradient也为0，就没有办法去update参数了，所以应该让input<0的时候，微分后还能有一点点的值，比如令a=0.01z，这个东西就叫做Leaky ReLU
在这里插入图片描述
既然a可以等于0.01z，那这个z的系数自然可以是0.07、0.08之类的，所以就有人提出了Parametric ReLU，也就是令a=αz，其中α并不是固定的值，而是network的一个参数，它可以通过training data学出来，甚至每个neuron都可以有不同的α值

Maxout

Maxout的想法是，让network自动去学习它的activation function，那Maxout network就可以自动学出ReLU，也可以学出其他的activation function，这一切都是由training data来决定的在这里插入图片描述
下图左上角是一个ReLU的neuron，它的input x会乘上neuron的weight w，再加上bias b，然后通过activation function-ReLU，得到output a
除了ReLU，Maxout还可以实现更多不同的activation function
这个时候得到的activation function的形状(绿线形状)，是由network的参数w，b，w’，b’ 决定的，因此它是一个Learnable Activation Function，具体的形状可以根据training data去generate出来

Maxout可以实现任何piecewise linear convex activation function(分段线性凸激活函数)，其中这个activation function被分为多少段，取决于你把多少个element z放到一个group里，下图分别是2个element一组和3个element一组的activation function的不同形状
在这里插入图片描述
假设在下面的Maxout network中，红框圈起来的部分为每个neuron的output
其实Max operation就是linear的operation，只是它仅接在前面这个group里的某一个element上，因此我们可以把那些并没有被Max连接到的element通通拿掉，从而得到一个比较细长的linear network
在这里插入图片描述
此时有一个问题，如果按照上面的做法，那岂不是只会train留在network里面的那些参数，剩下的参数该怎么办？那些被拿掉的直线(weight)岂不是永远也train不到了吗？

其实这只是个理论上的问题，在实际操作上，每个linear network的structure都是由input的那一笔data来决定的，当你input不同data的时候，得到的network structure是不同的，留在network里面的参数也是不同的，由于我们有很多很多笔training data，所以network的structure在训练中不断地变换，实际上最后每一个weight参数都会被train到

Adaptive learning rate

Review - Adagrad

Adagrad的精神是，假设我们考虑两个参数w1，w2，如果在w1这个方向上，平常的gradient都比较小，那它是比较平坦的，于是就给它比较大的learning rate；反过来说，在w2这个方向上，平常gradient都比较大，那它是比较陡峭的，于是给它比较小的learning rate 在这里插入图片描述

RMSProp

loss function可以是任何形状，对convex loss function来说，在每个方向上它会一直保持平坦或陡峭的状态，所以你只需要针对平坦的情况设置较大的learning rate，对陡峭的情况设置较小的learning rate即可

但是在下图所示的情况中，即使是在同一个方向上(如w1方向)，loss function也有可能一会儿平坦一会儿陡峭，所以你要随时根据gradient的大小来快速地调整learning rate
在这里插入图片描述

Momentum

除了learning rate的问题以外，在做deep learning的时候，也会出现卡在local minimum、saddle point或是plateau的地方，很多人都会担心，deep learning这么复杂的model，可能非常容易就会被卡住了，但其实当你的network越复杂，参数越多，这件事发生的概率就越低在这里插入图片描述
所以在一个很大的neural network里面，其实并没有那么多的local minima，搞不好它看起来其实是很平滑的，所以当你走到一个你觉得是local minima的地方被卡住了，那它八成就是global minima，或者是很接近global minima的地方

当我们在gradient descent里加上Momentum的时候，每一次update的方向，不再只考虑gradient的方向，还要考虑上一次update的方向，那这里我们就用一个变量v去记录前一个时间点update的方向在这里插入图片描述
gradient告诉我们走红色虚线的方向，惯性告诉我们走绿色虚线的方向，合起来就是走蓝色的方向

在加入Momentum以后，每一次移动的方向，就是negative的gradient加上Momentum建议我们要走的方向，Momentum其实就是上一个时间点的movement

下图中，红色实线是gradient建议我们走的方向，直观上看就是根据坡度要走的方向；绿色虚线是Momentum建议我们走的方向，实际上就是上一次移动的方向；蓝色实线则是最终真正走的方向在这里插入图片描述
如果我们今天走到local minimum的地方，此时gradient是0，红色箭头没有指向，它就会告诉你就停在这里吧，但是Momentum也就是绿色箭头，它指向右侧就是告诉你之前是要走向右边的，所以你仍然应该要继续往右走，所以最后你参数update的方向仍然会继续向右；你甚至可以期待Momentum比较强，惯性的力量可以支撑着你走出这个谷底，去到loss更低的地方

Good Results on Testing Data？

在这里插入图片描述

Early Stopping

假设你的learning rate调的比较好，那随着训练的进行，total loss通常会越来越小，但是Training set和Testing set的情况并不是完全一样的，很有可能当你在Training set上的loss逐渐减小的时候，在Testing set上的loss反而上升了

所以，理想上假如你知道testing data上的loss变化情况，你会在testing set的loss最小的时候停下来，而不是在training set的loss最小的时候停下来；但testing set实际上是未知的东西，所以我们需要用validation set来替代它去做这件事情在这里插入图片描述

Regularization

regularization就是在原来的loss function上额外增加几个term，比如我们要minimize的loss function原先应该是square error或cross entropy，那在做Regularization的时候，就在后面加一个Regularization的term

推导如下：
在这里插入图片描述

Dropout

在training的时候，每次update参数之前，我们对每一个neuron(也包括input layer的“neuron”)做sampling(抽样) ，每个neuron都有p%的几率会被丢掉，如果某个neuron被丢掉的话，跟它相连的weight也都要被丢掉

实际上就是每次update参数之前都通过抽样只保留network中的一部分neuron来做训练
在这里插入图片描述
Dropout真正要做的事情，就是要让你在training set上的结果变差，但是在testing set上的结果是变好的
所以如果在training set上得到的performance不够好，再加dropout，就只会越做越差，dropout就是针对testing set的方法，不能够拿来解决training set上的问题。

在使用dropout方法做testing的时候要注意两件事情：

testing的时候不做dropout，所有的neuron都要被用到
假设在training的时候，dropout rate是p%，从training data中被learn出来的所有weight都要乘上(1-p%)才能被当做testing的weight使用

neural network里面的每一个neuron就是一个“学生”，那大家被连接在一起就是大家听到说要组队做final project，那在一个团队里总是有人会拖后腿，就是他会dropout，所以假设你觉得自己的队友会dropout，这个时候你就会想要好好做，然后去carry这个队友，这就是training的过程

那实际在testing的时候，大家都有好好做，没有人需要被carry，由于每个人都比一般情况下更努力，所以得到的结果会是更好的，这也就是testing的时候不做dropout的原因
在这里插入图片描述
conclusion：如果network很接近linear的话，dropout所得到的performance会比较好，而ReLU和Maxout的network相对来说是比较接近于linear的，所以我们通常会把含有ReLU或Maxout的network与Dropout配合起来使用