机器学习(一)基础常用损失函数、评价指标、距离、指标

最新推荐文章于 2024-07-03 10:40:58 发布

Dynomite

最新推荐文章于 2024-07-03 10:40:58 发布

阅读量2.5k

点赞数 2

分类专栏：机器学习文章标签：机器学习损失函数评价指标距离函数相似度

本文链接：https://blog.csdn.net/Dynomite/article/details/80829785

版权

本文介绍了机器学习的基础知识，包括数据集划分方法如留出法、交叉验证和Bootstrapping，重点讲解了常见的损失函数如L2、L1、交叉熵和指数损失，以及性能度量如准确率、查准率、查全率和F1值。此外，还讨论了距离度量如欧式距离、曼哈顿距离和马氏距离，以及相似度计算中的余弦相似度和皮尔逊相关系数。最后，提到了信息论指标如熵、条件熵和KL散度等概念。

摘要由CSDN通过智能技术生成

机器学习(一)

1.基础

1.1 数据集划分方式

留出法
- 按正负例比例划分数据集，多次训练模型取平均
交叉验证
- k折交叉验证形成k个数据集，每次取其中的 $\frac{1}{k}$ 作为验证集
Bootstrapping
- 每次从样本容量为D的集合重复的取元素D次，形成新的样本容量为D数据集
- 某一样样本始终不出现的概率为 $(1-\frac{1}{D})^D$ ，取极限后， $\lim_{D\rightarrow\infty}(1-\frac{1}{D})^D\approx\frac{1}{e}$ ，约为0.368
比较
- 自助法适合于数据集小，难以有效划分的训练集测试集使用，此外划分不同的训练集测试集适合集成学习。
- 自助法改变了数据的初始分布，引入估计偏差，数据量足够交叉验证更多使用。
- 交叉验证可以降低模型的方差，更加稳定

1.2 常用损失函数

L2损失

$l o s s = 1 n \sum i = 1 n (y^i - y i) 2 (1)$ $loss = \frac{1}{n}\sum_{i=1}^n(\hat y_i - y_i)^2\tag1$
L1损失

loss=1n∑i=1n|y^i−yi|(2)

L1 不可导，可采用坐标轴下降的方式进行计算
- 延着坐标轴的方向进行参数的更新，不依赖于梯度
- 每次更新固定m-1个参数，只对一个参数进行优化，求局部极小值点
- 对于可微凸函数，如果参数的一个解在对于函数在某个坐标轴上能达到最小值，那么这个参数就是f的全局最小点
- 坐标轴下降法在每次迭代中在当前点处沿一个坐标方向进行一维搜索，固定其他的坐标方向，找到一个函数的局部极小值。而梯度下降总是沿着梯度的负方向求函数的局部最小值
交叉熵损失 nn

$l o s s = - 1 n \sum i = 1 n \sum j = 1 k y i j l o g y^i j (3)$ $loss = -\frac{1}{n}\sum_{i=1}^n\sum_{j=1}^{k}y_{ij}log\hat y_{ij}\tag3$
指数损失 Adaboost

$l o s s = 1 n \sum i = 1 n e - y i y^i (4)$ $loss = \frac{1}{n}\sum_{i=1}^ne^{-y_i\hat y_i}\tag4$
Hinge loss svm

$l o s s = 1 n \sum i = 1 n C m a x (0, 1 - y$