Datawhale-九月组队学习
零基础入门金融风控-贷款违约预测
第一次加入学习小组,愿我能坚持下来,有所收获,有所成长
Day_1
一、成功注册阿里云天池账号,报名《零基础入门金融风控-贷款违约预测》比赛,并下载数据
二、学习了python基本的数据的读取
三、分类指标评价
y_pred和y_true
用于调用confusion_matrix和accuracy_score,是写死的
y_pred模拟预测结果
y_true 模拟实际结果
accuracy_score和accuracy_score根据这两个参数,计算两者误差。
https://www.cnblogs.com/wj-1314/p/9400375.html
Day_2
第二天了解数据集的基本情况以及变量之间的相互关系
一、了解数据集的基本情况
1.数据的列标题
2.查看数据集的所有行和列以及head传参
3.数据类型–相当于hive中的desc
4.数据集的基本统计量 (个数/均值/最大值/最小值等)
5.数据集中的缺失值
(问题:f函数的作用)
数据中不存在缺失率大于50%的列
len(train) – 返回train数据的长度
6.查看缺失率特征及缺失率
纵向了解哪些列存在 “nan”, 并可以把nan的个数打印,主要的目的在于查看某一列nan存在的个数是否真的很大,如果nan存在的过多,说明这一列对label的影响几乎不起作用了,可以考虑删掉。如果缺失值很小一般可以选择填充。
另外可以横向比较,如果在数据集中,某些样本数据的大部分列都是缺失的且样本足够的情况下可以考虑删除。
7.查看数据集中都为同一值的列
总结:
47列数据中有22列都缺少数据,这在现实世界中很正常。‘policyCode’具有一个唯一值(或全部缺失)。有很多连续变量和一些分类变量。、
8.查看数据类型
数值型变量包括连续型和离散型