集成学习学习笔记——分类问题（4）

Baker_Young

于 2021-07-20 16:47:22 发布

阅读量297

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_54440493/article/details/118937292

版权

本文是集成学习学习笔记的第四部分，聚焦于分类问题。首先介绍数据准备，包括使用sklearn.datasets获取数据，特征筛选以及异常值处理。接着讨论模型性能度量，如混淆矩阵、准确率、查准率、查全率、F1值和ROC曲线等。最后，列举了几个常用的分类模型，如逻辑回归、LDA、朴素贝叶斯和决策树。

摘要由CSDN通过智能技术生成

Goal：实现一个完整的分类项目

机器学习项目=Data + Model（Strategy） + Algorithm（Optimization）

一、数据准备

在python的sklearn库中，利用sklearn.datasets模块，分类数据有经典的load_iris()，或者我们可以利用make_classification()随机生成分类数据。

数据的特征筛选可利用之前blog（3）中的训练误差修正or交叉验证，估计出测试误差，然后通过最优子集选择或向前逐步选择得到最优特征集合。或者采用正则化、降维的方式去减少特征数。

同时我们也可以通过一些方法去排除异常值，例如对偏态数据做log处理，对缺失值（视模型而定）做填充（均值、前后值、采用其他特征预测或者作为“缺失”label），对异常值（3σ，或者Extreme Forest）做筛选

二、模型性能度量

各类评价指标的选择依照我们实际问题中在乎什么而定

【混淆矩阵】

准确率

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。