机器学习(一)基础常用损失函数、评价指标、距离、指标

本文介绍了机器学习的基础知识,包括数据集划分方法如留出法、交叉验证和Bootstrapping,重点讲解了常见的损失函数如L2、L1、交叉熵和指数损失,以及性能度量如准确率、查准率、查全率和F1值。此外,还讨论了距离度量如欧式距离、曼哈顿距离和马氏距离,以及相似度计算中的余弦相似度和皮尔逊相关系数。最后,提到了信息论指标如熵、条件熵和KL散度等概念。
摘要由CSDN通过智能技术生成
机器学习(一)
1.基础

1.1 数据集划分方式

  • 留出法
    • 按正负例比例划分数据集,多次训练模型取平均
  • 交叉验证
    • k折交叉验证形成k个数据集,每次取其中的 1k 1 k 作为验证集
  • Bootstrapping

    • 每次从样本容量为D的集合重复的取元素D次,形成新的样本容量为D数据集
    • 某一样样本始终不出现的概率为 (11D)D ( 1 − 1 D ) D ,取极限后, limD(11D)D1e lim D → ∞ ( 1 − 1 D ) D ≈ 1 e ,约为0.368
  • 比较

    • 自助法适合于数据集小,难以有效划分的训练集测试集使用,此外划分不同的训练集测试集适合集成学习。
    • 自助法改变了数据的初始分布,引入估计偏差,数据量足够交叉验证更多使用。
    • 交叉验证可以降低模型的方差,更加稳定

1.2 常用损失函数

  • L2损失

    loss=1ni=1n(y^iyi)2(1) (1) l o s s = 1 n ∑ i = 1 n ( y ^ i − y i ) 2

  • L1损失

    loss=1ni=1n|y^iyi|(2) (2) l o s s = 1 n ∑ i = 1 n | y ^ i − y i |

    L1 不可导,可采用坐标轴下降的方式进行计算

    • 延着坐标轴的方向进行参数的更新,不依赖于梯度
    • 每次更新固定m-1个参数,只对一个参数进行优化,求局部极小值点
    • 对于可微凸函数,如果参数的一个解在对于函数在某个坐标轴上能达到最小值,那么这个参数就是f的全局最小点
    • 坐标轴下降法在每次迭代中在当前点处沿一个坐标方向进行一维搜索 ,固定其他的坐标方向,找到一个函数的局部极小值。而梯度下降总是沿着梯度的负方向求函数的局部最小值
  • 交叉熵损失 nn

    loss=1ni=1nj=1kyijlogy^ij(3) (3) l o s s = − 1 n ∑ i = 1 n ∑ j = 1 k y i j l o g y ^ i j

  • 指数损失 Adaboost

    loss=1ni=1neyiy^i(4) (4) l o s s = 1 n ∑ i = 1 n e − y i y ^ i

  • Hinge loss svm

    loss=1ni=1nCmax(0,1y
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值