【ML小结1】ML入门

本文介绍了机器学习中的交叉验证方法,包括留出法、k折交叉验证和自助采样法,强调其在评估模型性能和防止过拟合中的作用。此外,讨论了模型性能度量,如二分类和多分类问题中的查准率、查全率、F1度量,并详细阐述了正则化的概念,重点讲解了L0、L1、L2范数及其对模型复杂度的影响。最后,探讨了偏差与方差的权衡以及模型选择准则,如AIC、BIC和HQ准则。
摘要由CSDN通过智能技术生成

0. 数据挖掘完整过程

业务理解-数据理解-数据准备-模型搭建-模型评估-模型发布

1. 评估方法:交叉验证法

交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现。

1.1 划分数据集

  • 训练集用于训练模型参数
  • 验证集用于“训练”模型的超参数
  • 测试集用于估计整个模型对样本的泛化误差

1.2 作用

  • 可以在一定程度上减小过拟合。
  • 可以从有限的数据中获取尽可能多的有效信息。

1.3 方法

  • 留出法
  • k折交叉验证法
  • Bootstrapping自助采样法

2. 性能度量

混淆矩阵
在这里插入图片描述
准确率:
A c c = T P + T N T P + F N + F P + T N Acc = \frac{TP+TN}{TP+FN+FP+TN} Acc=TP+FN+FP+TNTP+TN

在正负样本不平衡的情况下,准确率这个评价指标有很大的缺陷。比如在互联网广告里面,点击的数量是很少的,一般只有千分之几,如果用acc,即使全部预测成负类(不点击)acc 也有 99% 以上,没有意义。

二分类问题

查准率P,在所有预测为正类的样本中,预测准确的样本占比: P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
查全率/召回率R,在所有真实为正类的样本中,预测准确的样本占比 : R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
F1度量: F = 2 P R P + R F=\frac{2PR}{P+R} F=P+R2PR

多分类问题

法1:在n个二分类混淆矩阵上综合考量。

宏查准率P: m a c r o P = 1 n ∑ i = 1 n P i macroP=\frac{1}{n}\sum_{i=1}^nP_i macroP=n1i=1nP

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值