来源:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl
目录
一.数据的总体了解
数据读取全部采用data = pd.read_csv()格式
1.1 维度:data.shape
data.shape
1.2 类型等基本信息:data.info()
给出样本数据的相关信息概览 :行数,列数,列索引,列非空值个数,列类型,内存占用,注意观察是否有连续型数据,离散型数据
data_train.info()
1.3 统计信息:data.describe()
生成描述性统计,总结数据集分布的中心趋势,分散和形状,不包括NaN值。
data.describe()
二.数据的深入了解
2.1 数据类型
- 特征一般由类别型数据和数值型数据构成,而数值型数据又分为离散型数据和连续型数据
-
类别型特征有时具有非数值关系,有时也具有数值关系。比如‘grade’中的等级A,B,C等,是否只是单纯的分类,还是A优于其他要结合业务判断。
2.1.1分类数据
category_fea = [x for x in data_train.columns if data_train[x].dtype == np.object]
2.1.2数值数据
numerical_fea = [x for x in data_train.columns if data_train[x].dtype != np.object]
数值型变量分析,数值型肯定是包括连续型变量和离散型变量
这里只是假设特征中特征值不重复的个数<10的特征判定为离散数据,具体还要根据字段分析
#过滤数