李宏毅2020机器学习深度学习(完整版)国语李宏毅2020机器学习深度学习(完整版)国语总结

最新推荐文章于 2024-08-27 21:04:46 发布

武凯的博客

最新推荐文章于 2024-08-27 21:04:46 发布

阅读量298

点赞数

本文链接：https://blog.csdn.net/qq_35415875/article/details/115962379

版权

李宏毅2020机器学习深度学习

Gradient Descent
误差来源
交叉熵的由来
过拟合 or欠拟合
relu在干啥
Maxout激活函数
dropout具体计算技巧原理
why deep
为什么LSTM可以解决RNN的梯度消失的问题？
解释神经网络技巧

Gradient Descent

在这里插入图片描述
为什么是更新方程是wt+1 = wt - η▽？
将输入x当作固定的，本来也是，因为输入的数据集一开始就是固定的，那么将w和b当做变量去优化关于w和b的方程L，要用到偏导，偏导就是可以找到下降最快的方向，也就是当loss固定的时候（x是固定的所以loss的方程是固定的，而w和b是变量），w和b移动然后慢慢找到loss最时候，则我们就求出了最佳的变量w和b，至于为什么是η，

误差来源

在这里插入图片描述
bias: bias描述的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距，简单讲，就是在样本上拟合的好不好。要想在bias上表现好，low bias，就得复杂化模型，增加模型的参数，但这样容易过拟合(overfitting)，过拟合对应上图是high variance，点很分散。lowbias对应就是点都打在靶心附近，所以瞄的是准的，但手不一定稳。
varience:varience描述的是样本上训练出来的模型在测试集上的表现，要想在variance上表现好，lowvarience，就要简化模型，减少模型的参数，但这样容易欠拟合(unfitting)，欠拟合对应上图是high bias，点偏离中心。low variance对应就是点都打的很集中，但不一定是靶心附近，手很稳，但是瞄的不准。
一般我们训练是三图到二图的过程，为了达到一图。

交叉熵的由来

首先我们知道从为什么是sigmoid function知道，σ（）括号里面是线性的
在这里插入图片描述
L最大的意思是，求一个能够对x1，x2，…xN都能预测准确其类别的那个模型，也就是当x属于类别C1时候其f值为接近1，属于C2时（1-f）接近1，连乘得到L，使得L最大则模型最好，即得到所求模型。

对L变形，求对数，加负号，又二分类，拆分一个式子为0，1分布
在这里插入图片描述
整理得到最终化解后的L

而这个式子L就是p和q俩个分布的交叉熵，也就是表示，p和q俩个分布的差距有多大，也就是预测结果分布和实际结果分布之间差距。