Loss function

均方误差与平均绝对误差

均方误差:MSE = \sum_{i=1}^{n}(y_{i} - y'_{i})^{2}     平均绝对误差:MAE = \sum_{i=1}^{n}\left | y_{i} - y'_{i} \right |

  • 相对于MAE计算损失,MSE对异常点赋更大的权重。MSE寻找平均值,MAE寻找是中位数,对异常点而言,中位数比平均值更鲁棒性
  • MAE更新梯度始终相同,很小损失值也具有较大梯度,解决方法是降低损失同时降低学习率
  • MSE使用固定学习率也可以收敛,其梯度与损失值成正比
  1. 若需要异常点检测,选用MSE,如果把异常点当作受损函数,则用MAE
  2. L1损失函数不连续,求解效率低;L2对异常点敏感,但可以得到更稳定的封闭解

Huber损失

对数据中的异常点没有平方误差那么敏感,在0处可微,在[-\delta ,\delta ]之间等价MSE,在x > \left | \delta \right |,为MAE

L_{\delta }(y,f(x)) = \left\{\begin{matrix} \frac{1}{2}(y-f(x))^{2}\quad\quad\quad \left | y-f(x) \right | < \delta \\ \delta \left | y-f(x) \right | -\frac{1}{2}\delta ^{2} \quad \left | y-f(x) \right | < \delta \end{matrix}\right.

可能需要不断调整\delta的值

交叉熵

信息量:x事件概率为p(x), 其对应的信息量为I(x) = -log(p(x))

  • 小明考试及格率p(x)=0.1,信息量I(x_{a}) = -log(0.1) = 3.32,小明及格可能性低,如果及格,引入较大信息量
  • 小红考试及格率p(x)=0.999,信息量I(x_{b}) = -log(0.999) =0.0014,小红成绩稳定,所以及格时,没有太多信息量

:熵是信息量的期望值,是事件确定型的度量标准。H(x) = -\sum_{i=1}^{n} p_{i}log(p_{i})

小明的熵:H(x_{a}) = -[p_{x_{a}}log(p_{x_{a}})+(1-p_{x_{a}})log(1-p_{x_{a}})]=0.469,小红的熵:H(x_{b})=0.0114。(小明的不确定性低,十有九次不及格;但是小红更低,假设有另外一个同学的及格率为0.5,熵为1,有很大不确定性

相对熵

又称KL散度,两个随机分布之间的距离度量:

D_{KL}(p\left | \right | q)=\sum_{x \in X} p(x)log(\frac{p(x)} {q(x)}) = H_{p}(q)-H(p)

上述公式两层意义:

  • 度量当真实分布为p时,假设分布q的无效性
  • 在真实分布为p时,使用假设分布q进行编码,相对于使用真实分布p进行编码所多出来的比特数

交叉熵:分布p、q已知:当真实分布p已知,H(p)为常数,此时交叉熵和KL距离在行为上等价,反映p与q相似度,当p=q时取得最小值。

CEH(p,q) = -\sum_{x \in X}p(x)logq(x) = H(p)-D_{KL}(p\left | \right |q)

假设p:真实的服从0-1分布,q:带估计的服从0-1分布:

CEH(p,q) = -[ylog(h_{\theta}(x))+(1-y)log(1-h_{\theta}(x))]

多分类中一个样本交叉熵:(一个样本中属于第y'_{i}个类别的损失,只有y'_{i} =1情况下才计算)

H = -\sum_{i} y'_{i}log(y_{i})

分类任务中为什么使用交叉熵,而不是均方差损失函数?

用MES计算分类问题的损失函数,loss曲线是波动的,有很多局极点,是非凸优化问题,而交叉熵为凸优化问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值