模型常见问题排查

最新推荐文章于 2022-11-02 12:03:31 发布

小浣熊1016

最新推荐文章于 2022-11-02 12:03:31 发布

阅读量951

点赞数

分类专栏：数据挖掘模型

数据挖掘模型专栏收录该内容

6 篇文章 0 订阅

订阅专栏

模型问题排查问题关键2个环节：

环节1：因子分布异常

缺失率异常
均值异常
极值异常
方差异常
因子时间趋势性变化

出现以上现象需要进行2个分析：成因分析和影响分析，完毕之后再形成解决方案。

环节2：模型输出 PSI异常：

PSI公式参考：https://www.zhihu.com/question/24490261/answer/229524690

（1）均匀尺度评分表现为高分区堆积

（2）均匀尺度评分表现为低分区堆积

（3）均匀尺度评分表现为下凹形态

（4）均匀尺度评分表现为上凸形态

PSI异常原因：

（1）系统bug，通常此类问题是由于bug造成，应仔细核对因子分布。

（2）另外的原因是由于样本在某个维度上分布有变异，这种变异通常需要查明原因，不同的原因处理方式不同，例如是否有时间趋势性因子，是否产品结构有调整，是否人群特性有变化等等。

这四类形态背后的主要成因：

（1）高分或者低分堆积通常是因为有时间性趋势因子或者是因子结构发生变化，该因子稳定向一个方向偏斜，会造成高分或者低分堆积。

（2）中间凸起，通常是因为训练集的因子信息充分，测试或者线上数据该因子有明显的缺失或者信息不充分。

（3）中间凹陷，通常是因为训练集的因子信息不充分，测试或者线上数据该因子缺失率减少或者是信息更为充分。

（4）以上分布成因并不绝对，bug也会造成以上分布形态，需要检查数据追根朔源。

之前遇到的具体问题：

1. 模型上线后由于对方提单时年收入少一个0，100000变成10000，造成模型偏差；

2. 之前积累的早期芝麻数据缺失率在40%，目前线上缺失率在10%，造成目前线上模型出现下凸形态；

3. 模型因子之中有很多具有时间趋势性的因子，这些因子单个看强度都不大，但是综合起来之后，评分会形成翘尾现象（保险）

4. 按照随机抽取的方式抽取样本，训练模型结果是均匀分布，但是按照时间卡样本会出现分布偏差，这个主要原因是由于时间趋势性因子造成。

5. 按照地区抽取样本会出现有些地区会出现翘尾现象，其他地区会出现翘首现象（保险），这个主要是因为2个因素造成，其中一个因素是标签是否地区政策差异，另外一个是该地区的特性的确如此。

这种问题通常不需要处理，这种偏斜反映了地区之间标签的差异，即使把地区因子去掉也有些因子的特性可以近似的组合出地区信息，并且如果采用隔离交叉训练可以减少地区之间的相互影响，但是合并后的结果依然会存在偏斜现象，其根本原因是标签浓度在地区分布上具有较强的信息增益。

6. 训练集因子计算结果同在线因子计算采用了不同的字典编码，造成因子值的细微差异，造成模型偏差。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
模型常见问题排查

模型问题排查问题关键2个环节：环节1：因子分布异常缺失率异常均值异常极值异常方差异常因子时间趋势性变化出现以上现象需要进行2个分析：成因分析和影响分析，完毕之后再形成解决方案。环节2：模型输出 PSI异常：PSI公式参考：https://www.zhihu.com/question/24490261/answer/229524690（1）均匀尺度评分表...
复制链接

扫一扫

专栏目录

小浣熊1016 CSDN认证博客专家 CSDN认证企业博客

码龄7年

14: 原创

75万+: 周排名

85万+: 总排名

15万+: 访问

: 等级

777: 积分

14: 粉丝

73: 获赞

8: 评论

490: 收藏

私信

关注

热门文章

分类专栏

机器学习 1篇
报表 1篇
数据处理 7篇
matlab 1篇
相关性 1篇
python 3篇
数据挖掘模型 6篇
kettle 2篇
金融风控 2篇

最新评论

金融风险控制
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加条理清晰的目录；(3)使用更多的站内链接。
利用matlab求三种相关系数
m0_74408645: 博主最后写的相关系数与相关程度对应的表中，这个相关系数可以是皮尔逊相关系数、Spearman相关系数中的任何一种相关系数吗
lgbm模型使用问题
qq_42825387: 请问解决了吗，我也遇到了这个问题
lgbm模型使用问题
卿心: 第一个怎么解决啊求解
Anaconda使用清华镜像报错
Wan挽风: 找了好多，终于解决了，感谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。