机器学习之数据预处理(数据诊断)

数据诊断作为数据分析和建模流程里面的第一环,也是最基本的一环,通过数据诊断可以认识数据整体特征的情况,从而可以对数据更好的分析和建模,做一些特征工程和数据预处理。

数据诊断的目的:

  • 了解特征的分布,缺失和异常
  • 统计指标可直接用于数据预处理
  • 方便更好的对数据分析和建模

数据诊断统计指标介绍:

  • 均值(mean)/中位数(median)/最大值/最小值
  • 计数类
  • 缺失值/方差
  • 分位点/值的频数

利用Python制作数据诊断工具

流程如下:

  • Python数据处理依赖包安装
  • 读取数据
  • 计算统计指标
  • 统计指标计算结果的功能整合

利用数据诊断结果了解数据整体特征情况,并进行数据预处理和建立学习模型

最后进行

  • 训练模型
  • 模型评估
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值