卡方分布的实际应用_详解卡方分箱及应用

目录

1分箱的好处

2卡方检验

3卡方检验的步骤

4评分卡中的卡方分箱

5 卡方分箱的代码

最近在复习评分卡建模的流程,在特征处理的过程中涉及到分箱这一基本的常用技巧,本文就对分箱中的卡方分箱展开详细说说。

分箱最常用在连续型的离散化,比如年龄这个变量,可以分箱为0-18,18-35,35-60,60以上这也是建立评分卡过程常见的操作,首先思考一个问题,为什么进行分箱?直接用年龄这个变量去建模是否可以?其实是可以的。只不过评分卡需要模型有很强的业务可解释性,这和你建模的算法有关。如果你用xgboost,模型会变得不可解释,此时不分箱也是可以的。

1、分箱的好处

①分箱后的特征对异常数据有很强的鲁棒性。比如年龄中有一个异常值为300,分箱之后可能划入到>60这一箱,而如果直接入模的话会对模型造成很大的干扰;

②特征离散化之后,每个变量有单独的权重,可以为逻辑回归模型引入非线性,能够提升模型表达能力,加大拟合;

③特征离散化以后,起到了简化逻辑回归模型的作用,降低了模型过拟合的风险;

④可以将缺失作为独立的一类带入模型;

⑤稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展。

下面开始介绍卡方分箱,首先要先了解卡方检验。因为卡方分箱是一种基于卡方检验的分箱方法,具体来说是基于卡方检验中的独立性检验来实现分箱功能。

2、卡方检验

卡方检验是对分类数据的频数进行分析的一种方法,它的应用主要体现在两个方面:拟合优度检验和独立性检验(列联分析)。

①拟合优度检验

拟合优度是对一个分类变量的检验,即根据总体分布状况,计算出分类变量中各类别的期望频率,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。比如,泰坦尼克号中我们观察幸存者是否与性别有关,可以理解为一个x是否与y有必然关系。

②独立性检验

独立性检验是两个特征变量之间的计算,它可以用来分析两个分类变量是否独立,或者是否用关联。比如某原料质量和产地是否是依赖关系,可以理解为一个x与另一个y是否独立。

3、卡方检验步骤

卡方检验也是一种假设检验,与常见的假设检验方法一致。

提出假设,比如假设两个变量之间独立

根据分类的观察频数

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
卡方分布 (Chi-square distribution) 是统计学中一种常见的概率分布,用于描述一组独立随机变量的和的分布。它的形状取决于自由度(degrees of freedom)的数量。卡方分布的概率密度函数可以用数学符号表示为 \chi^2(k),其中 k 是自由度的数量。 卡方分布在许多统计学方法中都有广泛的应用,例如假设检验、拟合度量以及构建置信区间等。它通常与卡方检验一起使用,用于比较观察值与预期值之间的差异。在实际应用中,卡方分布也常用于描述计数数据的分布情况。 需要注意的是,卡方分布的形状取决于自由度的数量。当自由度增加时,卡方分布变得更加对称并趋近于正态分布。此外,卡方分布还具有非负性质,即概率密度函数在整个实数轴上都是非负的。 因此,卡方分布是一种重要的概率分布,广泛应用于统计学和相关领域中。它有着丰富的性质和应用,对于理解和分析统计数据非常有帮助。<span class="em">1</span> #### 引用[.reference_title] - *1* [卡方分布的latex代码](https://blog.csdn.net/Infinity_07/article/details/114266239)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值