1、数据挖掘思维导图
思维导图为:Dr. Saed Sayad总结的An Introduction to Data Mining
个人更喜欢的分类方式为:
1、分类与预测
2、关联
3、聚类
4、异常检测
2、信用评分中的常见算法
信用评分中主要包括申请评分、行为评分、催收评分卡、反欺诈。其中,申请评分和行为评分比较成熟的是逻辑回归,其次层次聚类和判别分析、决策树。申请和信用评分需要比较好的解释性,也有的使用神经网络做,只是个噱头。在反欺诈中,不需要有好的解释性,神经网络在这方面这方面使用的比较多。
其实,当前在评分中,几乎没有单一的算法,都是综合处理。即使是传统的逻辑回归,针对变量的共线性分析也会采用很多方法,另外针对单一变量的分段也采用决策树来进行最优划分。
3、总结
实际上处理数据,主要包括:
1、针对数据进行数据的探索,各种统计指标,单个变量的情况分析,针对单变量的数据预处理和规范化
2、针对数据中变量和变量之间的关系进行分析
3、基于变量和变量之间的分析或者变量的分析,做出结论
4、通过原始数据验证模型和数据的吻合程度,通过新数据验证模型的预测程度
数据处理工具选择:
1、小数据量,spss比较简单好用,你可以不需要写代码,但是方法原理和结果还是要搞懂
2、中等数据量:sas不错,stat没用过
3、大数据量:spark或者hadoop,spark上有一些算法实现,有些算法还是要自己按照spark或者hadoop的变成模型来实现。从传统的算法变为可以在spark和hadoop上可以运行的算法也有很多工作量,需要既懂算法,又懂spark或者hadoop原理。
开发语言选择:
1、工具类,spss和sas都有自己的语言,sas在数据处理上还是很强大
2、开发类:如果只是分析,R和Python都很流行,看个人喜好;如果和程序的集成,相对来说java更合适,虽然python集成也比较方便。