机器学习与评分卡

最新推荐文章于 2022-09-27 19:15:57 发布

数据科学家corten

最新推荐文章于 2022-09-27 19:15:57 发布

阅读量1.5k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_37634812/article/details/90406589

版权

python 专栏收录该内容

30 篇文章

订阅专栏

机器学习简介

什么是机器学习

如果一个系统能够通过执行某个过程改变它的性能，这就是学习（什么是学习）
不用编程去指定机器做什么，而是让机器有能力自己学习
首先定义任务T，经验E，表现P，如果机器有一个任务T，随着经验E的增多，表现P也会变好，则表示机器正在经验E中学习

三要素

模型（机器学习的成果，条件概率分布或决策函数）
策略（计算模型的方式）
算法

生活中的机器学习应用

垃圾邮件分类
AlphaGo围棋AI
医疗行业
人声识别

监督学习

学习一个模型，使模型对给定输入做出相应的预测输出，流程如下图

这里写图片描述

其中自变量x为自变量，是实例的特征向量；y为因变量，是实例的结果。

监督学习主要解决分类与回归两类问题

监督学习实例

已知房价，平米数的训练集如下：

平米数	房价（万）
50	50
80	70
100	90
130	110
150	？？？

给定一个平米数，预测该面积房价。

无监督学习

从数据中自主学习，分析数据的类别结构

评分卡介绍

什么是评分卡（信贷场景中）

以分数的形式来衡量风险几率的一种手段
对未来一段时间内违约/逾期/失联概率的预测
通常评分越高越安全
根据使用场景分为反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡

为什么要开发评分卡

风险控制的一个环节，根据已有数据提供逾期概率指标参考

评分卡的特性

稳定性
预测能力
等价于逾期概率

评分卡开发的常用模型

逻辑回归
决策树
组合模型

基于逻辑回归的评分卡理论依据

一个事件发生的几率（Odds），是指该事件发生的概率与该事件不发生概率的比值。若一个客户违约概率为p，则其正常的概率为1-p，由此可得：

Odds=p1−pOdds=p1−p

此时，客户违约的概率p可以表示为:

p=Odds1+Oddsp=Odds1+Odds

评分卡表达式为：

Score=A−Blog(Odds)Score=A−Blog(Odds)

其中A、B为常数。由于log函数在(0→+∞)(0→+∞)单调递增，所以当用户违约几率Odds越大时，Score评分越低。
通过给定
（1）某特定Odds时的Score值S0S0；
（2）该特定Odds值翻倍时Score增加值PD0PD0;
通过给定值S0S0与PD0PD0带入评分卡表达式，可求得A、B。
通过以上分析，求该用户评分Score的问题则转化为求用户违约对数几率log(Odds)log(Odds)的问题。
依照二元逻辑回归构造预测函数

hθ(x)=g(θTx)=11+e−θTxhθ(x)=g(θTx)=11+e−θTx

其中hθ(x)hθ(x)表示结果取1的概率。
推倒可得该事件的对数几率log(Odds)log(Odds)如下：

log(Odds)=logp1−p=loghθ(x)1−hθ(x)=log11+e−θTx1−11+e−θTx=θTxlog(Odds)=logp1−p=loghθ(x)1−hθ(x)=log11+e−θTx1−11+e−θTx=θTx

可以发现：在逻辑斯蒂回归模型中，输出Y=1的对数几率是输入条件x的线性函数。

θTx=∑i=1nθixi=θ0+θ1x1+θ2x2+...+θnxnθ=⎡⎣⎢⎢⎢θ0θ1...θn⎤⎦⎥⎥⎥,x=⎡⎣⎢⎢⎢x0x1...xn⎤⎦⎥⎥⎥θTx=∑i=1nθixi=θ0+θ1x1+θ2x2+...+θnxnθ=[θ0θ1...θn],x=[x0x1...xn]

由此可得log(Odds)=θ0+θ1x1+...+θnxnlog(Odds)=θ0+θ1x1+...+θnxn
回到信贷业务中
目标：寻找最理想的参数估计θθ使得模型预测的概率相对已有样本最准确。
方法：损失函数最小化求得θθ
逻辑回归的损失函数为对数损失函数（具体可由极大似然估计推倒）：

L(θ) =1m∑i=1mCost(hθ(x(i)),y(i))=−1m[∑i=1m(y(i)⋅log(hθ(x(i)))+(1−y(i))⋅log(1−hθ(x(i)))]L(θ)=1m∑i=1mCost(hθ(x(i)),y(i)) =−1m[∑i=1m(y(i)⋅log⁡(hθ(x(i)))+(1−y(i))⋅log⁡(1−hθ(x(i)))]

逻辑回归损失函数图
利用梯度下降法求得minL(θ)minL(θ),得到θθ
Repeat {

θj:=θj−α∂∂θj∑i=1m(hθ(x(i))−y(i))x(i)jθj:=θj−α∂∂θj∑i=1m(hθ(x(i))−y(i))xj(i)

}(同时更新所有θjθj)

数据处理流程

数据可视化

可以通过数据可视化来验证我们对数据分布的一些猜想，使我们对数据分布有一个清晰的认识和理解，并且由此设计一些合理的人工规则。

方式：

各种图形展现工具

用途：

理解数据
方便数据探索
辨别分析离群点

数据清洗

1.检验异常样本

根据对具体业务的理解和认识去除一些异常极端的数据。例如在对网页浏览量的分析，可能需要去除爬虫用户的浏览数据。

2.缺省字段的处理

数据样本的某些特征字段可能有缺省值，需根据缺省值多少与特征类型区分处理

缺省值很多时直接舍弃。作为特征加入的话，可能反倒带入噪声，影响最后的结果。
非连续特征缺省量适中时，将Nan作为一个新类别加入至特征中
连续特征缺省量适中时，考虑给定一个step(比如age，我们可以考虑每隔2/3岁为一个步长)，然后把它离散化，之后把NaN作为一个type加到属性类目中
缺省值很少时利用填充的办法进行处理。例如用均值、中位数、众数填充，模型填充等

特征分箱

分箱的定义