目录
1分箱的好处
2卡方检验
3卡方检验的步骤
4评分卡中的卡方分箱
5 卡方分箱的代码
最近在复习评分卡建模的流程,在特征处理的过程中涉及到分箱这一基本的常用技巧,本文就对分箱中的卡方分箱展开详细说说。
分箱最常用在连续型的离散化,比如年龄这个变量,可以分箱为0-18,18-35,35-60,60以上这也是建立评分卡过程常见的操作,首先思考一个问题,为什么进行分箱?直接用年龄这个变量去建模是否可以?其实是可以的。只不过评分卡需要模型有很强的业务可解释性,这和你建模的算法有关。如果你用xgboost,模型会变得不可解释,此时不分箱也是可以的。
1、分箱的好处
①分箱后的特征对异常数据有很强的鲁棒性。比如年龄中有一个异常值为300,分箱之后可能划入到>60这一箱,而如果直接入模的话会对模型造成很大的干扰;
②特征离散化之后,每个变量有单独的权重,可以为逻辑回归模型引入非线性,能够提升模型表达能力,加大拟合;
③特征离散化以后,起到了简化逻辑回归模型的作用,降低了模型过拟合的风险;
④可以将缺失作为独立的一类带入模型;
⑤稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展。
下面开始介绍卡方分箱,首先要先了解卡方检验。因为卡方分箱是一种基于卡方检验的分箱方法,具体来说是基于卡方检验中的独立性检验来实现分箱功能。
2、卡方检验
卡方检验是对分类数据的频数进行分析的一种方法,它的应用主要体现在两个方面:拟合优度检验和独立性检验(列联分析)。
①拟合优度检验
拟合优度是对一个分类变量的检验,即根据总体分布状况,计算出分类变量中各类别的期望频率,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。比如,泰坦尼克号中我们观察幸存者是否与性别有关,可以理解为一个x是否与y有必然关系。
②独立性检验
独立性检验是两个特征变量之间的计算,它可以用来分析两个分类变量是否独立,或者是否用关联。比如某原料质量和产地是否是依赖关系,可以理解为一个x与另一个y是否独立。
3、卡方检验步骤
卡方检验也是一种假设检验,与常见的假设检验方法一致。
提出假设,比如假设两个变量之间独立
根据分类的观察频数