信用评分与数据挖掘

1、数据挖掘思维导图


思维导图为:Dr. Saed Sayad总结的An Introduction to Data Mining

个人更喜欢的分类方式为:

1、分类与预测

2、关联

3、聚类

4、异常检测


2、信用评分中的常见算法

信用评分中主要包括申请评分、行为评分、催收评分卡、反欺诈。其中,申请评分和行为评分比较成熟的是逻辑回归,其次层次聚类和判别分析、决策树。申请和信用评分需要比较好的解释性,也有的使用神经网络做,只是个噱头。在反欺诈中,不需要有好的解释性,神经网络在这方面这方面使用的比较多。

其实,当前在评分中,几乎没有单一的算法,都是综合处理。即使是传统的逻辑回归,针对变量的共线性分析也会采用很多方法,另外针对单一变量的分段也采用决策树来进行最优划分。


3、总结

实际上处理数据,主要包括:

1、针对数据进行数据的探索,各种统计指标,单个变量的情况分析,针对单变量的数据预处理和规范化

2、针对数据中变量和变量之间的关系进行分析

3、基于变量和变量之间的分析或者变量的分析,做出结论

4、通过原始数据验证模型和数据的吻合程度,通过新数据验证模型的预测程度

数据处理工具选择:

1、小数据量,spss比较简单好用,你可以不需要写代码,但是方法原理和结果还是要搞懂

2、中等数据量:sas不错,stat没用过

3、大数据量:spark或者hadoop,spark上有一些算法实现,有些算法还是要自己按照spark或者hadoop的变成模型来实现。从传统的算法变为可以在spark和hadoop上可以运行的算法也有很多工作量,需要既懂算法,又懂spark或者hadoop原理。

开发语言选择:

1、工具类,spss和sas都有自己的语言,sas在数据处理上还是很强大

2、开发类:如果只是分析,R和Python都很流行,看个人喜好;如果和程序的集成,相对来说java更合适,虽然python集成也比较方便。

  • 5
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小小她爹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值