Goal:实现一个完整的分类项目
机器学习项目=Data + Model(Strategy) + Algorithm(Optimization)
一、数据准备
在python的sklearn库中,利用sklearn.datasets模块,分类数据有经典的load_iris(),或者我们可以利用make_classification()随机生成分类数据。
数据的特征筛选可利用之前blog(3)中的训练误差修正or交叉验证,估计出测试误差,然后通过最优子集选择或向前逐步选择得到最优特征集合。或者采用正则化、降维的方式去减少特征数。
同时我们也可以通过一些方法去排除异常值,例如对偏态数据做log处理,对缺失值(视模型而定)做填充(均值、前后值、采用其他特征预测或者作为“缺失”label),对异常值(3σ,或者Extreme Forest)做筛选
二、模型性能度量
各类评价指标的选择依照我们实际问题中在乎什么而定
【混淆矩阵】
- 准确率