机器学习任务的一般步骤
一、确定特征:(收集训练数据)
1 > 数据探索:(为什么要进行数据探索呢:有助于选择 合适的 数据预处理方法 和 建模方法)
(1)数据质量分析
-- 缺失值
-- 异常值
(2)特征分布特性的分析
-- 统计量
-- 直方图
(3)特征之间相关性分析
2 > 数据预处理:
(1)数据取值范围的缩放
-- 数据标准化(Standardization)
-- 数据缩放 (Scaling)
-- 数据正规划/归一化 (Normalization)
(2)特征编码
-- 二值化 (Binarizer)
-- 多项式编码 (PolynomialFeatures)
-- 标签编码 (LabelEncoder)
-- 独热编码 (OneHotEncoder)
-- 数值特征离散化 ()
3 > 特征选择:
二、确定模型:(暂定确切的模型)
三、模型训练:(根据样本数据计算模型参数)
四、模型评估: (根据测试数据,评估模型的预测性能)
note:深度学习可学习 feature
===========&