
机器学习、风控相关
文章平均质量分 78
亲持红叶
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
决策树可视化--dtreeviz库
决策节点利用堆叠直方图展示特征分布,每个目标类别都会用不同的颜色显示。在每个节点中各目标类别的样本数都用直方图的形式,这样可以提供更多信息。将≥和<用作边缘标签,看起来更清晰。叶子大小与该叶子中的样本数成正比。同样依赖GraphViz。利用有颜色的目标类别图例。原创 2025-02-12 21:18:51 · 875 阅读 · 0 评论 -
决策数可视化--graphviz 库
基于一个特征的值的有关数据的问题。每个问题的答案要么是 True,要么就是 False。数据点会根据该问题的答案在该决策树中移动。:每一类别中样本的数量。比如,顶部节点中有 2 个样本属于类别 0,有 4 个样本属于类别 1。:节点中大多数点的类别(持平时默认为 0)。在叶节点中,这是该节点中所有样本的预测结果。:节点的基尼不纯度。当沿着树向下移动时,平均加权的基尼不纯度必须降低。除叶节点(终端节点)之外的所有节点都有 5 部分。核心代码(这里只画出两层树用作演示):节点中观察的数量。原创 2025-02-11 21:51:28 · 489 阅读 · 0 评论 -
CSI-特征稳定性指标
CSI是衡量独立变量在不同时间分布变化的指标,用于比较评分数据集中独立变量的分布与开发数据集的分布。原创 2025-02-10 18:46:14 · 1215 阅读 · 0 评论 -
离散型变量的 PSI-群体稳定性指标计算
离散型随机变量的群体稳定性指标原创 2025-02-09 20:38:08 · 867 阅读 · 0 评论 -
连续型变量的 PSI-群体稳定性指标计算
在风控中,一套模型上线后往往需要很久(通常一年以上),如果模型不稳定会直接影响决策的合理性,所以稳定性压倒一切,反应了验证样本在各个分布与建模样本分布的稳定性,常用来筛选特征变量,评估模型稳定性。),而机器学习中基数长选择为自然常数e,因此单位常被称为。\ln(\frac{实际占比}{预期占比})} \。PSI &= sum{(实际占比-预期占比)表示实际数据当前分箱样本数占比、入模变量保证稳定性,变量监控。模型分数保证稳定性,模型监控。计算单个变量psi(等频)计算所有指标的psi(计算单个变量psi(原创 2025-02-08 18:23:47 · 1384 阅读 · 0 评论 -
lift-提升度 计算
变好”了多少,结合二分类模型的混淆矩阵。Lift衡量的是,与不利用模型相比,原创 2025-02-07 14:55:49 · 1121 阅读 · 0 评论 -
KS值和KS曲线
ks 值计算,绘制 ks 曲线原创 2025-01-22 15:31:40 · 1136 阅读 · 0 评论 -
vif-方差膨胀因子计算
数据集使用乳腺癌数据集。原创 2025-01-21 23:02:33 · 520 阅读 · 0 评论 -
使用scorecardpy库计算woe分箱和iv值
使用scorecardpy库计算woe分箱和iv值。原创 2025-01-20 19:28:04 · 1481 阅读 · 0 评论