自适应学习率
为什么很难下降到临界点
每下降一次的步长是确定的,如果补偿比较大的话,就会反弹
所以说到鞍部其实是一件比较难得事情,所以就引入自适应学习率的方法:
-
AdaGrad
-
RMSProp
-
Adam
最常用的优化的策略或者优化器
避免学习率一直变大一直变小
另一种方法:预热:让学习率先变大后变小
当我们使用 Adam、RMSprop 或 AdaGrad 时,需要计算 σ。而 σ 是一个统计的结果。从 σ 可知某一个方向的陡峭程度。统计的结果需要足够多的数据才精准,一开始统计结果 σ 是不精准的,所以需要先收集数据预热一下。
分类
分类可以当作回归来看
回归其实就是希望输出的y和标签y越接近越好,分类就是让它与想要的类越相近越好
一般比较常用独热向量来表示类:
实际情况还会用softmax函数去乘一下
计算出一个值的时候,就让这个值去和原来设定的几个标准做距离的运算,算出哪个比较近,就分到哪里去
方法:
-
均方误差
-
交叉熵(更常用)