目录
回归问题 & 分类问题
回归:单输出
分类:多输出(输出i是预测为第i类的置信度)
1. 从回归到多分类——均方损失
Softmax回归
1. 类似线性回归:非规范化的预测 = 权重(矩阵)与输入特征进行矩阵-向量乘法 + 偏置b
2. Softmax运算:将未规范化的预测变换为非负数且总和为1的概率
a)对每个未规范化的预测求幂,确保输出非负
b)每个求幂后的结果除以它们的总和
2. Softmax和交叉熵损失
用交叉熵衡量两个概率的区别,作为损失
不关心非正确的预测值,只关心正确的预测值置信度有多大
损失
用交叉熵计算
梯度
真实概率和预测概率的区别
3. 损失函数
3.1 均方损失(L2 Loss)
蓝色:损失函数
绿色:似然函数
橙色:损失函数的梯度
PS:似然函数理解
(
最大似然,即最有可能。这个概率,就是似然函数的值,对应了绿色曲线的顶点。
由图可知:在y=0的时候,芳某个参数能使得y'取值为0,那么这个参数是最有可能接近样本参数的
蓝色的线代表了y'偏离y的程度。
)
梯度越大,对参数更新越多,优化初期不一定好
3.2 绝对值损失函数(L1 Loss)
梯度永远是常数,优化末期没那么稳定
3.3 鲁棒损失Huber's Robust Loss
L1和L2的结合,前期步伐较大且稳定,后期步伐逐渐缩小
4. 小结
- Softmax运算获取一个向量,并将其映射为概率
- Softmax回归适用于分类问题,输出不同类别的概率分布
- 交叉熵是衡量两个概率分布之间差异很好的度量