一、分类问题
1.0-1损失函数
特点:
作为一种标准,但是相对太苛刻了,因此感知机使用的是一种软约束后的0-1损失函数
2. hinge loss: 主要用于SVM中
特点:
1. 主要用于svm中,如果样本分类正确,则损失为0,否则为1-y*f(x),其中f(x)的取值在(-1, 1)之间,而y的取值为-1或1。并不鼓励模型对某些样本过度自信,因此式模型更专注于整体的误差。
2.健壮性较强,对噪声不敏感
3. log loss
特点:
1. 输出在(0,1)之间,因此能非常好的表征概率分布
2.健壮性不强,对噪声敏感(噪声会带来较大的输出值,对损失值带来较大的影响)
3. LR的损失函数
4. 指数损失函数
特点:
1.对离群点,噪声非常敏感
2. 常用于adaboost算法中
5. 感知损失函数
特点:
1. hinge的一个变种, 不同于hinge的最大分类边界,在这个损失函数中,只要模型判断正确即可,则损失为0。
2.没有hinge的泛化能力强
6. 交叉熵损失函数
特点:
1.本质上是一种对数似然函数(log loss)
2. 当使用sigmoid作为激活函数的时候,常使用CE而不是MSE,因为MSE的梯度更新缓慢。
MSE的梯度公式:
当a趋向于0或1时,激活函数的导数趋向于0,会造成梯度更新缓慢。
CE的梯度公式:
因为没有激活函数的导数这一项,不会出现MSE的问题。于此同时,当误差(a-y)较大时,梯度值也会较大,模型更新的快,否则误差小则更新的慢,是一种很好的性质。
除此之外,MSE用于回归问题,CE用于分类问题。因为对于分类问题,MSE是非凸优化问题,容易陷入局部最优解。