金融风控 Task2-EDA

最新推荐文章于 2023-05-18 13:40:16 发布

baidu_41253024

最新推荐文章于 2023-05-18 13:40:16 发布

阅读量176

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_41253024/article/details/108672988

版权

1 数据概览

本次项目的数据集中，有80w左右的数据，数据类型有整数型，类别型，浮点型，大致可分为数值型和类别型两类，标签为受否违约（isDefault）在数据探索的过程中，我们要对于各个特征的类型，分布情况，与标签的相关程度进行分析，为下一步特征工程奠定基础

2 各个特征的分布在训练集和测试集的分布情况

这一步是考察各项数据的分布情况，尤其是训练集和测试集的差别，如果有个特征某部分在训练集上有分布但在测试集上没有，就要删除这部分对应的特征分布，比面数据的过拟合

以上是部分特征在训练集和测试集上的分布状况，可以发现拟合的较为完好

当然id这种特征在训练集和测试集上分布差异大是很正常的，但是中间有部分重叠说明可能一部分测试集的id与训练集重合，这部分可能会有干扰，可以考虑删除

3 缺失值

本次项目中部分特征缺失的绝对数量较大，但是相对的比例却不高（如下图），最高的仅缺失8%,可以考虑进行填充或删除部分行，而不需要对整个特征进行删除

填充的方法有向下向上填充，特定值填充，预测填充等等，不同的填充方法对于模型的表现会有影响，因此可以尝试不同的填充方法。

4 标签分布

从标签的分布来看，标签相差并不大，如果想要标签分布均匀，可以采用上采样或下采样的方法，如下图将相差较大的标签转为分布均匀的标签

5 数值型特征的探索

对于数值型特征，我们需要去寻找其分布状况，特征的集中程度越高，说明其极端值影响就越小，并且还要探究其分布与标签的关系，例如一个特征部分集中于正标签，另一部分集中于负标签，说明该特征对于是否区分样本有着极其重要的影响，在特征工程中，可以对该类标签进行各种探索，如频域扩张，与其他特征进行窗口化等一系列操作

plt.figure(figsize = [12,6])
sns.boxplot(train['loanAmnt'])

对loanAmnt（借贷总额）的分布状况进行探索，可以发现集中程度较高

train[['loanAmnt','isDefault']].plot(kind ='scatter',x = 'loanAmnt', y='isDefault')

对于该特征的分布在标签的分布情况进行探索，可以发现该特征在0，1标签的分布都很均匀

#查看该特征的分布
sns.violinplot(x = 'isDefault' , y='loanAmnt', data = train)

对标签的分布状况探索，发现0，1标签对应的该特征大都集中于0到20000左右，集该项指标对于标签的分布影响不明显

对于term这一特征就显得很极端

可以发现这类特征分布很极端，大量集中于3这里，少了在5这里

同样，分布与标签关联也不明显

以上说明该类特征对于标签的影响程度并不大

对于tdi这个特征

可以看出该特征在200到400这一阶段，位于0这一标签类别的特征与1标签有着部分区别，即0标签在200到400这一阶段更加集中，因此对于该类特征对标签分布的影响可能较大

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
金融风控 Task2-EDA

1 数据概览本次项目的数据集中，有80w左右的数据，数据类型有整数型，类别型，浮点型，大致可分为数值型和类别型两类，标签为受否违约（isDefault）在数据探索的过程中，我们要对于各个特征的类型，分布情况，与标签的相关程度进行分析，为下一步特征工程奠定基础2 各个特征的分布在训练集和测试集的分布情况这一步是考察各项数据的分布情况，尤其是训练集和测试集的差别，如果有个特征某部分在训练集上有分布但在测试集上没有，就要删除这部分对应的特征分布，比面数据的过拟合以上是部分特征...
复制链接

扫一扫

baidu_41253024 CSDN认证博客专家 CSDN认证企业博客

码龄7年

28: 原创

74万+: 周排名

9万+: 总排名

8740: 访问

: 等级

319: 积分

29: 粉丝

27: 获赞

4: 评论

41: 收藏

私信

关注

热门文章

最新评论

task2 ocr识别改进
CSDN-Ada助手: 非常感谢CSDN博主分享的<task2 ocr识别改进>的博客，我觉得文章内容十分实用，并且对于OCR识别算法的改进有很好的指导作用。我建议下一篇博客可以从<OCR识别算法优化>的角度出发，深入探讨如何提高OCR识别的准确率和效率，这对于需要进行大规模OCR识别的用户非常有帮助。相信会有更多的读者期待你的下一篇文章。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
task2 ocr识别改进
大家一起学编程（python）: 大佬666
task-11 xgb算法实战
LaoYuanPython: 博主又出新作，辛苦了！算法研究很有前途！
Task2 数据分析与处理
qq_44321367: 大佬厉害

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。