【公众号文章】——机器学习中的损失函数

最新推荐文章于 2024-05-05 09:29:18 发布

20斤芹菜肉包子

最新推荐文章于 2024-05-05 09:29:18 发布

阅读量3k

点赞数 2

分类专栏：公众号文章

公众号文章专栏收录该内容

5 篇文章 0 订阅

订阅专栏

机器学习种的损失函数

作者：Ravindra Parmar
来源：towards data science, 机器之心
链接：
https://mp.weixin.qq.com/s/wSFTLHnCpNtIZHKIMuvyzg

损失函数（Loss Function）不同于激发函数（Activation Function），是指一种将样本空间中的一个样本，通过某种映射关系，解释为某种结果的一种函数。更通俗地说，在统计学中，损失函数是一种衡量损失和错误程度的函数。

机器通过损失函数进行学习。这是一种用于评估算法在给定数据情况下，衡量泛化程度的方法。如果预测值与实际结果偏离较远，损失函数会得到一个非常大的值。在一些优化函数的辅助下，损失函数逐渐学会减少预测值的误差。

损失函数并不唯一，也并不具备绝对性

并非所有的机器学习算法都有其最适合的损失函数。往往需要对损失函数进行选择。而针对特定问题，选择损失函数又涉及到许多因素：如所选机器学习算法的类型、是否易于计算导数以及数据集中异常值所占比例。

回归损失函数与分类损失函数

广义上，根据学习任务的类型划分，可以将损失函数分为回归和分类损失函数两大类。

回归任务：用于处理连续值得预测问题（诸如给定房屋面积、房屋数量以及房间的大小，预测房屋得价格）。
分类任务：用于从类别值有限的数据集中预测输出（比如给定一个手写数字图像的数据集，将其按照0-9进行分类）

回归损失

1、均方误差 / 平方误 / L2损失

这里写图片描述
均方误差公式

均方误差（MSE）度量的是预测值和实际观测值间差的平方的均值。它只考虑误差的平均大小，不考虑其方向。但由于经过平方，与真实值偏离较多的预测值会比偏离较少的预测值受到更多的惩罚。再加上 MSE 的数学特性很好，这使得计算梯度变得更容易。

import numpy as np
y_hat = np.array([0.000, 0.166, 0.333])
y_true = np.array([0.000, 0.254, 0.998])
def rmse(predictions, targets):
    differences = predictions - targets
    differences_squared = differences ** 2
    mean_of_differences_squared = differences_squared.mean()
    rmse_val = np.sqrt(mean_of_differences_squared)
    return rmse_val
print("d is: " + str(["%.8f" % elem for elem in y_hat]))
print("p is: " + str(["%.8f" % elem for elem in y_true]))
rmse_val = rmse(y_hat, y_true)
print("rms error is: " + str(rmse_val))

2、平均绝对误差 / L1损失
这里写图片描述
平方绝对误差公式

平均绝对误差（MAE）度量的是预测值和实际观测值之间绝对差之和的平均值。和 MSE 一样，这种度量方法也是在不考虑方向的情况下衡量误差大小。但和 MSE 的不同之处在于，MAE 需要像线性规划这样更复杂的工具来计算梯度。此外，MAE 对异常值更加稳健，因为它不使用平方。

import numpy as np
y_hat = np.array([0.000, 0.166, 0.333])
y_true = np.array([0.000, 0.254, 0.998])

print("d is: " + str(["%.8f" % elem for elem in y_hat]))
print("p is: " + str(["%.8f" % elem for elem in y_true]))

def mae(predictions, targets):
    differences = predictions - targets
    absolute_differences = np.absolute(differences)
    mean_absolute_differences = absolute_differences.mean()
    return mean_absolute_differences
mae_val = mae(y_hat, y_true)
print ("mae error is: " + str(mae_val))

3、平均偏差误差（MBE）

这里写图片描述
平均偏差误差

与其它损失函数相比，这个函数在机器学习领域没有那么常见。它与 MAE 相似，唯一的区别是这个函数没有用绝对值。用这个函数需要注意的一点是，正负误差可以互相抵消。尽管在实际应用中没那么准确，但它可以确定模型存在正偏差还是负偏差。

分类损失

1、Hinge Loss / 多分类SVM损失

这里写图片描述
SVM损失（Hinge Loss）

在一定的安全间隔内（通常是 1），正确类别的分数应高于所有错误类别的分数之和。因此 hinge loss 常用于最大间隔分类（maximum-margin classification），最常用的是支持向量机。尽管不可微，但它是一个凸函数，因此可以轻而易举地使用机器学习领域中常用的凸优化器。

【例】又三个训练样本，要预测三个类别（狗、猫和马）。以下是通过算法预测出来的每一类的值：

这里写图片描述
Hinge Loss

计算这3个训练样本的hinge loss：

## 1st training example
max(0, (1.49) - (-0.39) + 1) + max(0, (4.21) - (-0.39) + 1)
max(0, 2.88) + max(0, 5.6)
2.88 + 5.6
8.48 (High loss as very wrong prediction)
## 2nd training example
max(0, (-4.61) - (3.28)+ 1) + max(0, (1.46) - (3.28)+ 1)
max(0, -6.89) + max(0, -0.82)
0 + 0
0 (Zero loss as correct prediction)
## 3rd training example
max(0, (1.03) - (-2.27)+ 1) + max(0, (-2.37) - (-2.27)+ 1)
max(0, 4.3) + max(0, 0.9)
4.3 + 0.9
5.2 (High loss as very wrong prediction)

2、交叉熵损失 / 负对数似然

交叉熵损失

这是分类问题中最常见的设置。随着预测概率偏离实际标签，交叉熵损失会逐渐增加。

当实际标签为 1(y(i)=1) 时，函数的后半部分消失，而当实际标签是为 0(y(i=0)) 时，函数的前半部分消失。简言之，我们只是把对真实值类别的实际预测概率的对数相乘。还有重要的一点是，交叉熵损失会严惩那些置信度高但是错误的预测值。

import numpy as np
predictions = np.array([[0.25,0.25,0.25,0.25],
                        [0.01,0.01,0.01,0.96]])
targets = np.array([[0,0,0,1],
                   [0,0,0,1]])
def cross_entropy(predictions, targets, epsilon=1e-10):
    predictions = np.clip(predictions, epsilon, 1. - epsilon)
    N = predictions.shape[0]
    ce_loss = -np.sum(np.sum(targets * np.log(predictions + 1e-5)))/N
    return ce_loss
cross_entropy_loss = cross_entropy(predictions, targets)
print ("Cross entropy loss is: " + str(cross_entropy_loss))

20斤芹菜肉包子

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
【公众号文章】——机器学习中的损失函数

机器学习种的损失函数作者：Ravindra Parmar 来源：towards data science, 机器之心链接： https://mp.weixin.qq.com/s/wSFTLHnCpNtIZHKIMuvyzg损失函数（Loss Function）不同于激发函数（Activation Function），是指一种将样本空间中的一个样本，通过某种映射关系，解释为某种结...
复制链接

扫一扫

专栏目录