金融风控学习笔记-3

EDA-数据探索性分析

这一篇主要是对EDA-数据探索性分析模块做一个总结归纳

概述

EDA(Exploratory Data Analysis),全名数据探索性分析,是通过了解数据集,了解变量间的相互关系以及变量与预测值之间的关系,从而帮助我们后期更好地进行特征工程和建立模型,是数据挖掘中十分重要的一步。

大致步骤
1、数据总览
2、查看数据的缺失值与异常值
3、查看特征变量的分布与目标变量的分布
4、将特征划分为数值特征、分类特征,然后对特征进行更细致的探索分析

1、数据总览

接手数据后大致浏览数据情况

1)查看数据类型,数据量
2)通过describe查看特征描述性统计指标(均值、方差、分位数等)
3)理解各个特征变量名称具体的业务含义,基于业务初步构建特征变量与目标变量之间的联系

2、缺失值、异常值处理

1)缺失值处理
当缺失值占比较少时,可以直接剔除该样本或者填充数值(均值、众数、中位数等)
当缺失值占比较高或超过事先设定的阈值,需考量该特征缺失的原因,基于业务是否是代表某个状态或该特征异常,若该缺失值代表某种状态可以用例如-9999的异常值填充,若特征异常可以考虑剔除该特征。

2)异常值处理
考虑同值率与离群点
将同值率高于阈值的特征去除
离群点可以基于3Σ原则的异常点去除或用统计值填充

3、查看特征变量的分布与目标变量的分布

大致了解特征变量的分布,同时可以查看特征变量与目标变量的的联系。

4、将特征划分为数值特征、分类特征,然后对特征进行更细致的探索分析

将特征根据变量类型划分成数值特征与分类特征

查看数值型特征与分类型特征的分布与相互之间的联系
并基于业务理解初步进行特征衍生

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值