视频部分:
视频7:使用帝国时代游戏解释Gradient Descent
李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
https://www.bilibili.com/video/av10590361/?p=7
(1)随机初始位置
(2)找附近比较低,开始走步
(3)走到一个地方发现是附近自己可见范围最低的点-----局部最优解(因为我们因为视野的限制,总是没有办法知道其他的地形,除非我们开天眼,看到整个的额地形地貌)
理解:
我们在进行优化为题的解决的时候会初始化一个方向,因为我们的每一输入的,评测模型输出效果的函数值(Loss Funcation‘,或者是fitness function’)都不是事先知道的额,都需要进行一步步的运才明白,就像我们在搜素的时候只能看到自己视野内的(被计算的)没有天眼(计算所有的结果,然后比较,整体把握,这个应该不现实吧),所以就没有办法判断自己是爱全局最优的地方,还是局部最优的地方。故而通常做的就是找到一个点之后么就当它是局部最优,然后跳出去。或是一开始的时候就可以避免局部最优设计
视频8:为什么使用GD方法更新,Loss会不降反增??
李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
https://www.bilibili.com/video/av10590361/?p=8
出现了过拟合(模型过于复杂,过度的关注去拟合每一个训练函数)
鞍点:
鞍点在微分方程中,沿着某一方向是稳定的,另一条方向是不稳定的奇点,叫做鞍点.在泛函中,既不是极大值点也不是极小值点的临界点,叫做鞍点.在矩阵中,一个数在所在行中是最大值,在所在列中是最小值,则被称为鞍点.在物理上要广泛一些,指在一个方向是极大值,另一个方向是极小值的点.