篇一:数据探索性分析步骤

来源:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl

目录

一.数据的总体了解

1.1 维度:data.shape

1.2 类型等基本信息:data.info()

1.3 统计信息:data.describe()

二.数据的深入了解

2.1 数据类型

2.1.1分类数据

2.1.2数值数据

2.2 数据分布:

2.2.1分类数据的分布

2.2.2离散型数据的分布

2.2.3连续型数据的分布

三.数据的特殊了解

3.1 缺失值

3.2 唯一值

四.数据的关系了解

4.1特征变量与特征变量之间

4.2特征变量与目标变量之间


一.数据的总体了解

数据读取全部采用data = pd.read_csv()格式

1.1 维度:data.shape

data.shape

1.2 类型等基本信息:data.info()

给出样本数据的相关信息概览 :行数,列数,列索引,列非空值个数,列类型,内存占用,注意观察是否有连续型数据,离散型数据

data_train.info()

1.3 统计信息:data.describe()

 生成描述性统计,总结数据集分布的中心趋势,分散和形状,不包括NaN值。

data.describe()

二.数据的深入了解

2.1 数据类型

  • 特征一般由类别型数据和数值型数据构成,而数值型数据又分为离散型数据和连续型数据
  • 类别型特征有时具有非数值关系,有时也具有数值关系。比如‘grade’中的等级A,B,C等,是否只是单纯的分类,还是A优于其他要结合业务判断。

2.1.1分类数据

category_fea = [x for x in data_train.columns if data_train[x].dtype == np.object]

2.1.2数值数据

numerical_fea = [x for x in data_train.columns if data_train[x].dtype != np.object]

数值型变量分析,数值型肯定是包括连续型变量离散型变量 

这里只是假设特征中特征值不重复的个数<10的特征判定为离散数据,具体还要根据字段分析

#过滤数
  • 0
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

十二十二呀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值