Datawhale-九月组队学习

零基础入门金融风控-贷款违约预测

第一次加入学习小组,愿我能坚持下来,有所收获,有所成长

Day_1

一、成功注册阿里云天池账号,报名《零基础入门金融风控-贷款违约预测》比赛,并下载数据

天池注册情况

二、学习了python基本的数据的读取

pandas

三、分类指标评价

在这里插入图片描述y_pred和y_true
用于调用confusion_matrix和accuracy_score,是写死的
y_pred模拟预测结果
y_true 模拟实际结果
accuracy_score和accuracy_score根据这两个参数,计算两者误差。

https://www.cnblogs.com/wj-1314/p/9400375.html
P_R曲线

Day_2

第二天了解数据集的基本情况以及变量之间的相互关系
一、了解数据集的基本情况

1.数据的列标题

显示列标题

2.查看数据集的所有行和列以及head传参

显示数据集

3.数据类型–相当于hive中的desc

数据集中的数据类型

4.数据集的基本统计量 (个数/均值/最大值/最小值等)

基本统计量

5.数据集中的缺失值

查找缺失值
(问题:f函数的作用)
缺失率大于50%的列
数据中不存在缺失率大于50%的列
len(train) – 返回train数据的长度

6.查看缺失率特征及缺失率

缺失率特征
纵向了解哪些列存在 “nan”, 并可以把nan的个数打印,主要的目的在于查看某一列nan存在的个数是否真的很大,如果nan存在的过多,说明这一列对label的影响几乎不起作用了,可以考虑删掉。如果缺失值很小一般可以选择填充。
另外可以横向比较,如果在数据集中,某些样本数据的大部分列都是缺失的且样本足够的情况下可以考虑删除。

7.查看数据集中都为同一值的列

查找同一值
总结:
47列数据中有22列都缺少数据,这在现实世界中很正常。‘policyCode’具有一个唯一值(或全部缺失)。有很多连续变量和一些分类变量。、
8.查看数据类型
数值型变量包括连续型和离散型
数值型变量

Day_3

开始看直播啦

直播课

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值