机器学习任务的一般步骤

一、确定特征:(收集训练数据)

1 > 数据探索:(为什么要进行数据探索呢:有助于选择 合适的 数据预处理方法 和 建模方法)

    (1)数据质量分析
          -- 缺失值
          -- 异常值
    (2)特征分布特性的分析
          -- 统计量
          -- 直方图
    (3)特征之间相关性分析


2 > 数据预处理:

3 > 特征选择:

二、确定模型:(暂定确切的模型)

三、模型训练:(根据样本数据计算模型参数)

四、模型评估: (根据测试数据,评估模型的预测性能)

note:深度学习可学习 feature

===========================================================================================

—–>确定特征—->数据探索——>数据质量分析——–> 缺失值:

1.统计含有缺失值的样本数目  及  缺失率

2.缺失值的处理:

    1> 删除含有(一个或多个)缺失值的样本 (从 行 的角度考虑)

    2> 删除缺失值太多的特征(从 列 的角度考虑)

    3> 对缺失值进行插补

        —— 均值mean(默认的方法)
        —— 中位数median
        —— 众数 most_frequent
        —— 固定值插补 (根据背景知识用某些常量进行插补)
        —— 最近邻插补 (寻找最相似的样本,用该样本对应的属性进行插补)
        —— 回归方法 (用没有缺失的数据建立回归方程预测不完整的样本数据)
        —— 插值法 (利用该变量已有数据 建立合适的插值函数 进行插补)

    4> 不处理(有些框架可处理数据缺失的情况,如:xgboost)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值