信用评分之三--逻辑回归中的统计方法

最新推荐文章于 2024-01-05 00:56:48 发布

小小她爹

最新推荐文章于 2024-01-05 00:56:48 发布

阅读量5.7k

点赞数 2

分类专栏： ---信用评分 ---互联网金融架构、自然语言处理、金融风控、信用评分文章标签：信用评分逻辑回归统计参数

本文链接：https://blog.csdn.net/everlasting_188/article/details/51603530

版权

架构、自然语言处理、金融风控、信用评分同时被 3 个专栏收录

37 篇文章 15 订阅

订阅专栏

---互联网金融

23 篇文章 1 订阅

订阅专栏

---信用评分

7 篇文章 1 订阅

订阅专栏

逻辑回归汇总的变量选择

1、使用所有的变量：这是拟合模型的最简单的方法；
2、正向选择：这种模型如要如下步骤。第一步，用截距对模型进行拟合，接下来，检验没有纳入模型的变量并选择卡方统计量最大、符合进入条件的变量，这个条件可以通选选项SLE确定。一旦这个变量被纳入模型就不会被移出，重复这个过程知道所有变量纳入。
3、逆向选择：与正向相反，第一步，使用所有的变量进行拟合，然后，在每一步，移出Wald卡方统计量P值最大的变量，一旦移出，将不会纳入。
4、 stepwise选择：刚开始模型只有截距项，正向选择最优，逆向选择最差，通过SLE和SLS的值控制纳入和移出模型变量的p值。
5、得分最有统计模型：最优得分法与stepwise方法相似，但是使用分支界定算法找出木偶性的分数统计量最高变量的子集，从而找出最优解。

卡方分布与皮尔逊卡方检验的关系

摘录自知乎，总结的比较到位
我们知道，从正态分布里随机抽取n个值的平方的和构成了自由度为n-1的卡方分布，在使用卡方分布表进行假设检验时，我们需要用样本方差除总体方差进行标准化。现在的问题是使用皮尔逊卡方检验的时候，为什么用的不是总体方差进行标准化，而是使用理论频数进行标准化？
理论证明，实际观察次数（fo）与理论次数（fe），又称期望次数）之差的平方再除以理论次数所得的统计量，近似服从卡方分布。所以用理论次数标准化

模型选择的几种方法：AIC，BIC，HQ准则

引用：http://blog.csdn.net/xianlingmao/article/details/7891277

经常地，对一堆数据进行建模的时候，特别是分类和回归模型，我们有很多的变量可供使用，选择不同的变量组合可以得到不同的模型，例如我们有5个变量，2的5次方，我们将有32个变量组合，可以训练出32个模型。但是哪个模型更加的好呢？目前常用有如下方法：
AIC=-2 ln(L) + 2 k 中文名字：赤池信息量 akaike information criterion
BIC=-2 ln(L) + ln(n)*k 中文名字：贝叶斯信息量 bayesian information criterion
HQ=-2 ln(L) + ln(ln(n))*k hannan-quinn criterion
其中L是在该模型下的最大似然，n是数据数量，k是模型的变量个数。
注意这些规则只是刻画了用某个模型之后相对“真实模型”的信息损失【因为不知道真正的模型是什么样子，所以训练得到的所有模型都只是真实模型的一个近似模型】，所以用这些规则不能说明某个模型的精确度，即三个模型A, B, C，在通过这些规则计算后，我们知道B模型是三个模型中最好的，但是不能保证B这个模型就能够很好地刻画数据，因为很有可能这三个模型都是非常糟糕的，B只是烂苹果中的相对好的苹果而已。
这些规则理论上是比较漂亮的，但是实际在模型选择中应用起来还是有些困难的，例如上面我们说了5个变量就有32个变量组合，如果是10个变量呢？2的10次方，我们不可能对所有这些模型进行一一验证AIC, BIC，HQ规则来选择模型，工作量太大。