机器学习中的距离和损失函数

最新推荐文章于 2025-09-05 02:07:20 发布

原创最新推荐文章于 2025-09-05 02:07:20 发布 · 5.7k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

ML&DL-总结性文章专栏收录该内容

20 篇文章

订阅专栏

本文介绍了多种距离度量方法，如欧式距离、马氏距离等，并探讨了它们的应用场景及优缺点。此外，还详细解释了几种常用的损失函数，包括log对数损失函数、平方损失函数等，在机器学习中的作用。

文章目录

- - 13.1 距离度量
  - 13.2 损失函数

13.1 距离度量

距离函数种类：欧式距离、曼哈顿距离、明式距离（闵可夫斯基距离）、马氏距离、切比雪夫距离、标准化欧式距离、汉明距离、夹角余弦等
常用距离函数：欧式距离、马氏距离、曼哈顿距离、明式距离
1.欧式距离
欧式距离是最容易直观理解的距离度量方法，我们小学，中学，高中所接触的两个空间中的距离一般都是指的是欧式距离。

2.曼哈顿距离(Manhattan Distance)
两个点在标准坐标系上的绝对轴距总和

3.切比雪夫距离
各坐标数值差的最大值

4.闵可夫斯基距离
闵氏距离不是一种距离，而是一组距离的定义，是对多个距离度量公式的概括性的表述。

5.标准化欧氏距离
定义：标准化欧氏距离是针对欧氏距离的缺点而作的一种改进。标准欧氏距离的思路：既然数据各维分量的分布不一样，那先将各个分量都**“标准化”**到均值、方差相等。

6.马氏距离
**概念：**马氏距离是基于样本分布的一种距离。物理意义就是在规范化的主成分空间中的欧氏距离。所谓规范化的主成分空间就是利用主成分分析对一些数据进行主成分分解。再对所有主成分分解轴做归一化，形成新的坐标轴。由这些坐标轴张成的空间就是规范化的主成分空间。

马氏距离的优点：与量纲无关，排除变量之间的相关性干扰
7.余弦距离

夹角余弦取值范围为[-1,1]。余弦越大表示两个向量的夹角越小，余弦越小表示两向量的夹角越大。当两个向量的方向重合时余弦取最大值1，当两个向量的方向完全相反余弦取最小值-1。
8.汉明距离
定义：两个等长字符串s1与s2的汉明距离为：将其中一个变为另外一个所需要作的最小字符替换次数。
9.信息熵
以上的距离度量方法度量的皆为两个样本（向量）之间的距离，而信息熵描述的是整个系统内部样本之间的一个距离，或者称之为系统内样本分布的集中程度（一致程度）、分散程度、混乱程度（不一致程度）。系统内样本分布越分散(或者说分布越平均)，信息熵就越大。分布越有序（或者说分布越集中），信息熵就越小。

13.2 损失函数

log对数损失函数（逻辑回归）
平方损失函数（最小二乘法）
指数损失函数（AdaBoost）
Hinge损失函数（SVM）
0-1损失函数
绝对值损失函数
损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。
损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项
1.log对数损失函数
在逻辑回归的推导中，它假设样本服从伯努利分布（0-1分布），然后求得满足该分布的似然函数。
log函数是单调递增的，（凸函数避免局部最优）
在使用梯度下降来求最优解的时候，它的迭代式子与平方损失求导后的式子非常相似
2.平方损失函数（最小二乘法, Ordinary Least Squares）
最小二乘法是线性回归的一种，OLS将问题转化成了一个凸优化问题。
在线性回归中，它假设样本和噪声都服从高斯分布（为什么假设成高斯分布呢？其实这里隐藏了一个小知识点，就是中心极限定理），最后通过极大似然估计（MLE）可以推导出最小二乘式子。
为什么它会选择使用欧式距离作为误差度量呢（即Mean squared error， MSE），主要有以下几个原因：
简单，计算方便；
欧氏距离是一种很好的相似性度量标准；
在不同的表示域变换后特征性质不变
3.指数损失函数（AdaBoost）

4.hinge损失
在机器学习算法中，hinge损失函数和SVM是息息相关的。在线性支持向量机中，最优化问题可以等价于下列式子：

损失函数总结