类别变量-卡方分箱

更多大数据分析、建模等内容请关注公众号《bigdatamodeling》 By 小石头 建模中遇到类别变量时,经常将其转为哑变量进行处理,但若类别变量的属性过多,会生成过多的哑变量,从而导致维度增加,并且很多情况下,只有部分哑变量进入模型,可能损失类别变量的部分信息。除了转为哑变量的进行处理,...

2019-04-27 21:09:58

阅读数 260

评论数 0

Vintage、滚动率、迁移率的应用

更多大数据分析、建模等内容请关注公众号《bigdatamodeling》 By 小石头 一、Vintage Vintage源于葡萄酒酿造,葡萄酒的品质会因葡萄生长的年份不同、气候不同而不同。Vintage分析是指评估不同年份的葡萄酒的品质随着窖藏时间的推移而发生的变化,并且窖藏一定年份...

2019-02-24 16:34:21

阅读数 2977

评论数 4

非平衡数据的处理方法

更多大数据分析、建模等内容请关注公众号《bigdatamodeling》 在分类问题中常常遇到一个比较头疼的问题,即目标变量的类别存在较大偏差的非平衡问题。这样会导致预测结果偏向多类别,因为多类别在损失函数中所占权重更大,偏向多类别可以使损失函数更小。 处理非平衡问题一般有两种方法,欠抽样...

2018-07-01 20:11:32

阅读数 208

评论数 0

R语言计算KS,并绘制KS曲线

更多大数据分析、建模等内容请关注公众号《bigdatamodeling》 将代码封装在函数PlotKS_N里,Pred_Var是预测结果,可以是评分或概率形式;labels_Var是好坏标签,取值为1或0,1代表坏客户,0代表好客户;descending用于控制数据按违约概率降序排列,如果Pre...

2018-05-26 08:31:51

阅读数 2780

评论数 0

python学习笔记—DataFrame和Series的排序

更多大数据分析、建模等内容请关注公众号《bigdatamodeling》 ################################### 排序 ######################################## from pandas import DataFrame,...

2018-05-24 19:08:49

阅读数 1872

评论数 0

R语言计算IV值

更多大数据分析、建模等内容请关注公众号《bigdatamodeling》 在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,R语言计算IV值的代码如下: CalcIV <- function(df_bin, key_var, y_var){ N_...

2018-05-23 21:55:52

阅读数 1980

评论数 1

Python计算IV值

更多大数据分析、建模等内容请关注公众号《bigdatamodeling》 在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,python计算IV值的代码如下: def CalcIV(Xvar, Yvar): N_0 = np.sum(Yvar==0) ...

2018-05-23 21:52:56

阅读数 4349

评论数 0

python学习笔记-生成随机数

更多大数据分析、建模等内容请关注公众号《bigdatamodeling》 在实现算法时经常会用到随机数,有时会忘记各种随机数的生成方法,这里对Python中的随机数生成方法进行汇总,以供以后查阅。 import numpy as np # 两者实现的作用是一样的,都是使每次随机生成数一样 n...

2018-05-23 19:38:38

阅读数 75

评论数 0

Python实现KS曲线

更多大数据分析、建模等内容请关注公众号《bigdatamodeling》 python实现KS曲线,相关使用方法请参考上篇博客-R语言实现KS曲线 代码如下: ####################### PlotKS ########################## def Pl...

2018-05-22 21:15:29

阅读数 3193

评论数 1

提示
确定要删除当前文章?
取消 删除