集成学习学习笔记——分类问题(4)

本文是集成学习学习笔记的第四部分,聚焦于分类问题。首先介绍数据准备,包括使用sklearn.datasets获取数据,特征筛选以及异常值处理。接着讨论模型性能度量,如混淆矩阵、准确率、查准率、查全率、F1值和ROC曲线等。最后,列举了几个常用的分类模型,如逻辑回归、LDA、朴素贝叶斯和决策树。
摘要由CSDN通过智能技术生成

Goal:实现一个完整的分类项目

机器学习项目=Data + Model(Strategy) + Algorithm(Optimization)

一、数据准备

        在python的sklearn库中,利用sklearn.datasets模块,分类数据有经典的load_iris(),或者我们可以利用make_classification()随机生成分类数据。

        数据的特征筛选可利用之前blog(3)中的训练误差修正or交叉验证,估计出测试误差,然后通过最优子集选择或向前逐步选择得到最优特征集合。或者采用正则化、降维的方式去减少特征数。

        同时我们也可以通过一些方法去排除异常值,例如对偏态数据做log处理,对缺失值(视模型而定)做填充(均值、前后值、采用其他特征预测或者作为“缺失”label),对异常值(3σ,或者Extreme Forest)做筛选

二、模型性能度量

各类评价指标的选择依照我们实际问题中在乎什么而定

【混淆矩阵】

  •  准确率
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值