点击打开链接https://blog.csdn.net/kevin7658/article/details/50780391
对于计算WOE而言,首先进行分段:最优分段、等距分段。
https://blog.csdn.net/lll1528238733/article/details/76600598里提到”连续变量最优分段算法是基于条件推理树(conditional inference trees, Ctree)的递归分割算法,其基本原理是根据自变量的连续分布与因变量的二元分布之间的关系,采用递归的回归分析方法,逐层递归满足给定的显著性水平,此时获取的分段结果(位于Ctree的叶节点上)即为连续变量的最优分段。其核心算法用函数ctree()表示。“
因此,使用R的smbinning包做得分段是基于条件推断决策树的叶节点算法得到的。
http://blog.sina.com.cn/s/blog_5041e6f00102v8co.html提到”条件推断决策树(conditional inference trees):它根据统计检验来确定自变量和分割点的选择。即先假设所有自变量与因变量均独立。再对它们进行卡方独立检验,检验P值小于阀值的自变量加入模型,相关性最强的自变量作为第一次分割的自变量。自变量选择好后,用置换检验来选择分割点。用party包建立的决策树不需要剪枝,因为阀值就决定了模型的复杂程度。所以如何决定阀值参数是非常重要的(参见ctree_control)。较为流行的做法是取不同的参数值进行交叉检验,选择误差最小的模型参数。“
因此,条件推断决策树分割点的选择是根据置换检验得到的。
置换检验:https://www.plob.org/article/3176.html