基于R语言的用户征信行为分类预测模型搭建总结

最新推荐文章于 2023-10-04 19:58:28 发布

VIP文章你还可以输入300个字符

最新推荐文章于 2023-10-04 19:58:28 发布

阅读量8.3k

点赞数 1

分类专栏：数据挖掘数据分析文章标签：大数据预测数据 r语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/droprainbow/article/details/52026270

版权

数据集：15万行数据量，11个数据维度。目标变量为是否有重大违约倾向（定义为超过90天没有还贷）

建模流程：

1. 缺失值处理

发现数据集的数据缺失主要集中在亲属数量和月收入两个属性。其中，亲属数量却缺失属性为3000多条，且这3000多条记录中，月收入属性也同时缺失，故直接删除。

对于有1万多条缺失记录的月收入，采用线性回归和多重插补填补缺失值。

进行线性回归时，可能由于其他自变量与月收入的相关关系不大，所以尽管拟合指标非常好，真实的拟合值还是有非常大的误差。

对于线性回归而言，数据分布符合基本假设是很重要的。在这里，主要采取了如下三个方法：

（1）检验同方差性

library(car)

ncvTest(mymodel)

可根据提示的Suggested power transformation值，对响应变量进行幂次变换，经过变换，非恒定的误差方差变得平稳。这一改进举措，使R-square从0.7上升到0.9。

（2）检验因变量与自变量间的线性关系

library（car）

crPlots(mymodel)

开始，图形显示非线性。在非线性的属性“age”中，我对比了添加年龄的二次项和log项，结果发现添加二次项后的模型中，年龄与因变量完美符合线性关系。同时，添加对数项的模型也比单纯的age线性项效果更好。这一举措，使R-square从0.9提升到0.97。
（3）去除噪声值

这一项举措也是影响很大，但是没有前两者的改变那么根本和激动人心。噪声值的处理非常艺术，在大数据量中，可能会有很多噪声值，但是最好不要全部都去掉。删不删除，删除几个，都是要拿捏的。我认为，这里主要还是要考虑一个性价比的问题。比如，当我删除前三个cook值最大的离群点时，模型的提升非常显著（当时拟合优度还比较低），但当继续删除时，发现模型的提升并没有那么显著了。那么这时，我认为就应当适可而止。

如果在噪声值处理这部分，有相关的数据处理包可以将“适可而止”转化为定量地处理噪声值时，还请各位同行告知。

2.异常值处理

首先，利用箱线图删除明显异常点。

boxplot(mymodel$my_attr)

或根据业务情况经过summary数据，查看数据异常值，选择删除。

接下来的量化筛选，个人比较喜欢用的方法是使用线性回归模型的cook值。

这个数据集的异常值非常的多。仅Debt_ratio一项，大于1的数据项就超过了20%（这里是用 quantile()定位查看的）。由于无从得知异常原因和数据来源，也由于时间关系，直接选择删除。其实如果时间充裕，可以考虑线性回归替换，或是均值替换等等，

最低0.47元/天解锁文章

你还可以输入300个字符

关注

1
点赞
踩
28

收藏

觉得还不错? 一键收藏
3
评论
基于R语言的用户征信行为分类预测模型搭建总结

数据集：15万行数据量，11个数据维度。目标变量为是否有重大违约倾向（定义为超过90天没有还贷）建模流程：1. 缺失值处理发现数据集的数据缺失主要集中在亲属数量和月收入两个属性。其中，亲属数量却缺失属性为3000多条，且这3000多条记录中，月收入属性也同时缺失，故直接删除。对于有1万多条缺失记录的月收入，采用线性回归和多重插补填补缺失值。进行线性回归时，可能由于其他自
复制链接

扫一扫

专栏目录

你还可以输入300个字符 CSDN认证博客专家 CSDN认证企业博客

码龄15年

4: 原创

55万+: 周排名

165万+: 总排名

5万+: 访问

: 等级

392: 积分

11: 粉丝

4: 获赞

4: 评论

74: 收藏

私信

关注

热门文章

分类专栏

数据分析 4篇
数据挖掘 3篇

最新评论

关于DBSCAN算法的通俗理解
料理码王: 你这个只是解释了概念啊，没有解释DBSCAN如何运作的啊
基于R语言的用户征信行为分类预测模型搭建总结
白马长枪儒雅将: 博主能否将数据和代码分享一下学习一下或者给个链接地址也行啊！
基于R语言的用户征信行为分类预测模型搭建总结
zxy_1987: 求代码分享
基于R语言的用户征信行为分类预测模型搭建总结
baidu_36853436: 你好，我觉得你这篇文章写得非常好，但有一个问题就是你的数据来源于哪里哇？银行给的？我也想写关于大数据征信的论文，谢谢~

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。