目录
随机梯度下降法Stochastic gradient descent
损失函数用来指导训练过程,使得网络的参数向损失降低的方向改变。
训练过程:
随机梯度下降法Stochastic gradient descent
试图找到一组参数使得损失函数的值越小越好。
调整参数的大小和方向取决于损失函数相对于参数的偏导数。
特性:
- 最小值(0):当网络的输出和真实输出一致
- 当输出和真实输出越不一致时值越大。
常用的损失函数(1)
不同的任务类型需要不同的损失函数
1、回归Regression:网络输出一个连续的数值
列如:预测一栋房屋的价值
损失函数:绝对值误差,平方差
2、分类Classification:网路的输出为一个类别,从预定义的一组类别中的一个
实例:判断邮件是否是垃圾邮件
损失函数:hinge loss, Cross-entropy loss
1)绝对误差函数Absolute value,L1-norm
非常质感的损失函数
得到的解会比较稀疏 sparser
在高纬任务中表现比较好 预测速度快
对outliers不敏感
2)方差函数Square error, Euclidean loss, L2-norm
常用的损失函数:1.比绝对误差函数得到的结果更精准;2.对大的误差输出更敏感;3.对outliers很敏感
分类:
如何设计损失函数?
1. 将真实的唯一输出编码为一个向量 --> 独热编码 One-hot encoding
2. 非概念的解释 ---> hinge loss
3. 概念解释:将输出转换为概念函数 ---> Softmax