【ML小结1】ML入门

==樛木==

已于 2023-02-26 12:01:27 修改

阅读量901

点赞数

分类专栏：机器学习之个人小结文章标签：交叉验证正则化

于 2018-11-19 12:48:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38493025/article/details/84241665

版权

本文介绍了机器学习中的交叉验证方法，包括留出法、k折交叉验证和自助采样法，强调其在评估模型性能和防止过拟合中的作用。此外，讨论了模型性能度量，如二分类和多分类问题中的查准率、查全率、F1度量，并详细阐述了正则化的概念，重点讲解了L0、L1、L2范数及其对模型复杂度的影响。最后，探讨了偏差与方差的权衡以及模型选择准则，如AIC、BIC和HQ准则。

摘要由CSDN通过智能技术生成

0. 数据挖掘完整过程

业务理解-数据理解-数据准备-模型搭建-模型评估-模型发布

1. 评估方法：交叉验证法

交叉验证用于评估模型的预测性能，尤其是训练好的模型在新数据上的表现。

1.1 划分数据集

训练集用于训练模型参数
验证集用于“训练”模型的超参数
测试集用于估计整个模型对样本的泛化误差

1.2 作用

可以在一定程度上减小过拟合。
可以从有限的数据中获取尽可能多的有效信息。

1.3 方法

留出法
k折交叉验证法
Bootstrapping自助采样法

2. 性能度量

混淆矩阵
在这里插入图片描述
准确率：
$\frac{TP+TN}{TP+FN+FP+TN}$

在正负样本不平衡的情况下，准确率这个评价指标有很大的缺陷。比如在互联网广告里面，点击的数量是很少的，一般只有千分之几，如果用acc，即使全部预测成负类（不点击）acc 也有 99% 以上，没有意义。

二分类问题

查准率P，在所有预测为正类的样本中，预测准确的样本占比： $P=\frac{TP}{TP+FP}$
查全率/召回率R，在所有真实为正类的样本中，预测准确的样本占比： $R=\frac{TP}{TP+FN}$
F1度量： $F=\frac{2PR}{P+R}$

多分类问题

法1：在n个二分类混淆矩阵上综合考量。

宏查准率P： $macroP=\frac{1}{n}\sum_{i=1}^nP_i$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。