Datawhale-九月组队学习

最新推荐文章于 2024-08-03 19:27:22 发布

miao_sunshine

最新推荐文章于 2024-08-03 19:27:22 发布

阅读量290

点赞数

文章标签： python 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/miao_sunshine/article/details/108586290

版权

Datawhale-九月组队学习

零基础入门金融风控-贷款违约预测

零基础入门金融风控-贷款违约预测

第一次加入学习小组，愿我能坚持下来，有所收获，有所成长

Day_1

一、成功注册阿里云天池账号，报名《零基础入门金融风控-贷款违约预测》比赛，并下载数据

天池注册情况

二、学习了python基本的数据的读取

pandas

三、分类指标评价

在这里插入图片描述 y_pred和y_true
用于调用confusion_matrix和accuracy_score，是写死的
y_pred模拟预测结果
y_true 模拟实际结果
accuracy_score和accuracy_score根据这两个参数，计算两者误差。

https://www.cnblogs.com/wj-1314/p/9400375.html

Day_2

第二天了解数据集的基本情况以及变量之间的相互关系
一、了解数据集的基本情况

1.数据的列标题

显示列标题

2.查看数据集的所有行和列以及head传参

显示数据集

3.数据类型–相当于hive中的desc

数据集中的数据类型

4.数据集的基本统计量（个数/均值/最大值/最小值等）

基本统计量

5.数据集中的缺失值

查找缺失值
（问题：f函数的作用）

数据中不存在缺失率大于50%的列
len(train) – 返回train数据的长度

6.查看缺失率特征及缺失率

缺失率特征
纵向了解哪些列存在 “nan”, 并可以把nan的个数打印，主要的目的在于查看某一列nan存在的个数是否真的很大，如果nan存在的过多，说明这一列对label的影响几乎不起作用了，可以考虑删掉。如果缺失值很小一般可以选择填充。
另外可以横向比较，如果在数据集中，某些样本数据的大部分列都是缺失的且样本足够的情况下可以考虑删除。

7.查看数据集中都为同一值的列

查找同一值
总结：
47列数据中有22列都缺少数据，这在现实世界中很正常。‘policyCode’具有一个唯一值（或全部缺失）。有很多连续变量和一些分类变量。、
8.查看数据类型
数值型变量包括连续型和离散型

Day_3

开始看直播啦

直播课

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale-九月组队学习

Datawhale-九月组队学习零基础入门金融风控-贷款违约预测Day_1零基础入门金融风控-贷款违约预测第一次加入学习小组，愿我能坚持下来，有所收获，有所成长Day_1一、成功注册阿里云天池账号，报名《零基础入门金融风控-贷款违约预测》比赛，并下载数据二、学习了python基本的数据的读取三、分类指标评价y_pred和y_true用于调用confusion_matrix和accuracy_score，是写死的y_pred模拟预测结果y_true 模拟实际结果accuracy_sc
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。