初探机器学习与评分卡模型

最新推荐文章于 2024-09-18 16:22:39 发布

sleety_t

最新推荐文章于 2024-09-18 16:22:39 发布

阅读量1.2w

点赞数 1

文章标签：机器学习欺诈数据

本文链接：https://blog.csdn.net/weixin_41363820/article/details/78834012

版权

本文介绍了机器学习的基本概念，包括监督学习和无监督学习，并详细探讨了评分卡在信贷风险评估中的作用。通过对数据的预处理，如数据清洗、特征分箱和WOE编码，以及使用逻辑回归等模型，构建评分卡以预测违约概率。数据采样用于解决正负样本不平衡的问题，以提高模型的泛化能力。

摘要由CSDN通过智能技术生成

机器学习简介

什么是机器学习

如果一个系统能够通过执行某个过程改变它的性能，这就是学习（什么是学习）
不用编程去指定机器做什么，而是让机器有能力自己学习
首先定义任务T，经验E，表现P，如果机器有一个任务T，随着经验E的增多，表现P也会变好，则表示机器正在经验E中学习

三要素

模型（机器学习的成果，条件概率分布或决策函数）
策略（计算模型的方式）
算法

生活中的机器学习应用

垃圾邮件分类
AlphaGo围棋AI
医疗行业
人声识别

监督学习

学习一个模型，使模型对给定输入做出相应的预测输出，流程如下图

这里写图片描述

其中自变量x为自变量，是实例的特征向量；y为因变量，是实例的结果。

监督学习主要解决分类与回归两类问题

监督学习实例

已知房价，平米数的训练集如下：

平米数	房价（万）
50	50
80	70
100	90
130	110
150	？？？

给定一个平米数，预测该面积房价。

无监督学习

从数据中自主学习，分析数据的类别结构

评分卡介绍

什么是评分卡（信贷场景中）

以分数的形式来衡量风险几率的一种手段
对未来一段时间内违约/逾期/失联概率的预测
通常评分越高越安全
根据使用场景分为反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡

为什么要开发评分卡

风险控制的一个环节，根据已有数据提供逾期概率指标参考

评分卡的特性

稳定性
预测能力
等价于逾期概率

评分卡开发的常用模型

逻辑回归
决策树
组合模型

基于逻辑回归的评分卡理论依据

一个事件发生的几率（Odds），是指该事件发生的概率与该事件不发生概率的比值。若一个客户违约概率为p，则其正常的概率为1-p，由此可得：

O d d s = p 1 - p

$Odds = \frac{p}{1-p}$
此时，客户违约的概率p可以表示为:

p = O d d s 1 + O d d s

$p=\frac{Odds}{1+Odds}$
评分卡表达式为：

S c o r e = A - B l o g (O d d s)

$Score = A-Blog(Odds)$
其中A、B为常数。由于log函数在

(0→+∞) $(0 \to +\infty)$ 单调递增，所以当用户违约几率Odds越大时，Score评分越低。
通过给定
（1）某特定Odds时的Score值

S0 $S_0$ ；
（2）该特定Odds值翻倍时Score增加值

PD0 $PD_{0}$ ;
通过给定值

S0 $S_0$ 与

PD0 $PD_{0}$ 带入评分卡表达式，可求得A、B。
通过以上分析，求该用户评分Score的问题则转化为求用户违约对数几率

log(Odds) $log(Odds)$ 的问题。
依照二元逻辑回归构造预测函数

h θ (x) = g (θ T x) = 1 1 + e - θ T<

最低0.47元/天解锁文章

sleety_t

关注

1
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫