机器学习补充

月亮月亮要去太阳

已于 2024-06-25 23:54:23 修改

阅读量703

点赞数 19

文章标签：机器学习人工智能

于 2024-06-20 23:27:08 首次发布

本文链接：https://blog.csdn.net/qq_43710593/article/details/139844790

版权

一、数据抽样

数据预处理阶段：对数据集进行抽样可以帮助减少数据量，加快模型训练的速度/减少计算资源的消耗，特别是当数据集非常庞大时，比如设置sample_rate=0.8.
平衡数据集：通过抽样平衡正负样本，提升模型性能。
模型验证阶段：可以通过对数据集进行抽样来生成训练集和验证集，用于评估模型的泛化能力。
快速原型开发：在快速原型开发阶段，可以对数据集进行抽样，以便更快地构建和验证模型的基本功能。
改善数据分布状态？

阶段所在：

数据探索阶段：在数据探索阶段，可以对数据集进行初步的抽样，以了解数据的基本特征、分布情况和缺失情况，帮助确定后续数据处理的方向。
数据预处理阶段：在数据预处理阶段，对数据集进行抽样可以帮助简化数据、处理缺失值、处理异常值、进行特征工程等，为模型训练做准备。
模型训练阶段：在模型训练阶段，数据抽样可以用于生成训练集、验证集和测试集，以及处理类别不平衡等问题，有助于提高模型的性能和泛化能力。
模型验证阶段：在模型验证阶段，可以通过数据抽样生成不同的训练集和验证集，用于评估模型的性能，调参和改进模型。

二、评估指标

1. 特征重要性（Feature Importance）

决策树和基于树的模型

Gini重要性（基尼重要性）：
在决策树、随机森林和梯度提升树（如XGBoost、LightGBM）中，特征的重要性可以通过特征在树的分裂中所贡献的Gini指数减少量来衡量。
每个特征的重要性是其在所有树中所贡献的Gini指数减少量的平均值。
信息增益：
类似于Gini重要性，信息增益衡量的是一个特征在树的分裂中所贡献的信息熵减少量。

2、回归系数

Ex:回归和逻辑回归

3、递归特征消除（Recursive Feature Elimination, RFE）

RFE是一种特征选择方法，通过递归地训练模型并消除最不重要的特征，直到剩下所需数量的特征。

4. 基于模型的特征选择（Model-based Feature Selection）

使用模型的特征选择方法（如Lasso、Ridge回归等），这些方法通过正则化来选择重要特征。

5. 互信息（Mutual Information）

互信息衡量的是两个变量之间的依赖关系。特征和目标变量之间的互信息越大，说明该特征对目标变量的区分能力越强。

6. P值（p-value）

在统计学中，P值用于检验特征变量与目标变量之间的相关性。较低的P值表示该特征对目标变量有显著影响。

7. 信息增益比（Information Gain Ratio）

信息增益比是信息增益的改进版本，考虑了特征的固有值。它在决策树算法（如C4.5）中常用。

8. F值（ANOVA F-value）

F值用于分析方差（ANOVA），衡量特征与目标变量之间的线性关系。较高的F值表示特征对目标变量有显著影响。

9. Permutation Importance（置换重要性）

通过随机打乱特征值并观察模型性能的变化来评估特征重要性。特征值被打乱后模型性能下降越多，说明该特征越重要。

三、分箱的目的和优势

数据简化：

分箱可以将连续变量转换为分类变量，从而简化数据的处理和分析。例如，将年龄从一个连续变量分成几个年龄段（如"0-18岁"、“19-35岁”、“36-50岁”、“50岁以上”）。

处理噪声：

通过分箱，可以减少数据中的噪声。特别是对于有很多离散值的变量，分箱可以平滑数据，减少极端值对分析的影响。

特征工程：

分箱是特征工程中的常用方法，尤其是在信用评分和风险管理中。分箱后的变量可以用于计算WOE和IV，从而帮助选择和转换特征。

提高模型稳定性：

分箱可以提高模型的稳定性，特别是在处理小样本数据时。通过将数据分箱，可以减少过拟合的风险。

分箱的方法

等宽分箱（Equal-width Binning）：

将数据按等宽度划分为若干个区间。例如，如果数据范围是0到100，分成5个等宽区间，每个区间的宽度是20。

等频分箱（Equal-frequency Binning）：

将数据按等频率划分为若干个区间，每个区间包含相同数量的数据点。例如，如果有100个数据点，分成5个等频区间，每个区间包含20个数据点。

自定义分箱（Custom Binning）：

根据业务需求或数据分布，自定义分箱的边界。例如，信用评分中可能根据违约率的变化来定义分箱边界。

四、KS值（Kolmogorov-Smirnov 统计量）

是评估分类模型性能的一个重要指标，特别是在信用评分和金融风险管理领域。它衡量了模型区分正类和负类样本的能力。具体来说，KS值表示正类样本的累积分布函数（CDF）与负类样本的累积分布函数之间的最大差异。

KS曲线是两条线，其横轴是阈值，纵轴是TPR与FPR。两条曲线之间之间相距最远的地方对应的阈值，就是最能划分模型的阈值。

KS值是MAX(TPR - FPR），即两曲线相距最远的距离。

KS值的计算步骤

预测概率排序：

按照模型输出的预测概率对样本进行排序。

计算累积分布函数（CDF）：

计算正类样本（如违约客户）的累积分布函数。
计算负类样本（如非违约客户）的累积分布函数。

计算最大差异：

计算正类样本和负类样本的累积分布函数之间的最大差异，这个差异即为KS值。

KS值的解释

KS值越大，模型区分正类和负类样本的能力越强。
KS值越小，模型区分正类和负类样本的能力越弱。
一般来说，KS值在0.4到0.7之间表示模型性能较好；0.7以上表示模型性能非常好；低于0.3表示模型性能较差。

四、WOE编码

在信用评分和风控模型中，WOE编码是一种常用的特征工程方法，它将原始特征转换为一个新的特征，以增强模型的解释性和预测性能。对各个特征进行 WOE 编码的主要目的是将原始特征转换为一个反映特征与目标变量（如违约与否）之间关系的数值。

WOE 编码的步骤

分箱（Binning）：

首先，将连续变量或分类变量分成若干个区间（bins）。分箱可以是等频分箱、等宽分箱或基于业务逻辑的分箱。
例如，将年龄分成 [18-25], [26-35], [36-45], [46-55], [56+] 这样的区间。

计算每个分箱的好坏比率：

对于每个分箱，计算该分箱中好客户（未违约）和坏客户（违约）的比例。
例如，某个分箱中有 100 个客户，其中 80 个是好客户，20 个是坏客户，那么好客户的比例是 80%，坏客户的比例是 20%。

计算 WOE 值：

对于每个分箱，计算其 WOE 值。WOE 的公式如下：
[
WOE = \ln \left( \frac{\text{好客户比例}}{\text{坏客户比例}} \right)
]
如果某个分箱的好客户比例为 80%，坏客户比例为 20%，则其 WOE 值为：
[
WOE = \ln \left( \frac{0.8}{0.2} \right) = \ln (4) \approx 1.386
]

将原始特征替换为 WOE 编码：

将每个样本的原始特征值替换为其所在分箱的 WOE 值。
例如，如果一个客户的年龄在 [26-35] 区间，并且该区间的 WOE 值为 0.5，那么该客户的年龄特征将被替换为 0.5。

为什么使用 WOE 编码

线性关系：

WOE 编码后的特征与目标变量之间通常具有更线性的关系，这对线性模型（如逻辑回归）非常有利。

处理缺失值：

WOE 编码可以自然地处理缺失值，通过将缺失值视为一个单独的分箱来计算其 WOE 值。

减少数据噪音：

通过分箱，WOE 编码可以减少数据中的噪音，使得模型更加稳定。

模型解释性：

WOE 值具有明确的业务含义，便于解释模型的结果。

五、比较坏账率

比较坏账率（Bad Rate Comparison）是指在不同的数据集或不同的时间段内，对目标变量（通常是二分类问题中的坏账率，即负样本率）进行比较，以评估模型的稳定性和数据分布的变化。坏账率是指在某个数据集或某个时间段内，目标变量为负类（坏账）的样本所占的比例。

比较坏账率的目的

评估模型性能：

通过比较不同数据集（如训练集、验证集、测试集）或不同时间段内的坏账率，可以评估模型在不同数据集上的表现是否一致，从而判断模型的稳定性和泛化能力。

监控数据分布变化：

坏账率的变化可能反映了数据分布的变化。如果坏账率在不同时间段内有显著变化，可能需要重新训练模型或进行特征工程。

识别潜在问题：

通过比较坏账率，可以识别数据中的潜在问题，如数据泄露、数据偏差等，从而采取相应的措施进行修正。

六、陪跑模型（Champion-Challenger Model）

是一种广泛应用于风险管理和决策优化的策略。该模型通过引入多个模型进行对比和竞争，以确保在不同的市场环境和数据变化下，始终使用最优的模型来做出决策。

七、数据集的划分：训练、测试和外部验证集（Out-Of-Time）

OOT数据集通常用于验证模型的稳定性和泛化能力。它通常包含的是不同时间段的数据，与训练集和测试集的数据时间段不重叠。
OOT数据集的主要目的是模拟模型在实际应用中的表现，因为它代表了模型在未来数据上的预测能力。
在金融领域，尤其是信用评分和风险管理中，使用OOT数据集来验证模型的表现是非常重要的，因为金融数据具有时间相关性，模型需要在不断变化的市场环境中保持稳定的预测能力。

八、评分卡类型

申请评分卡（Application Scorecard）：

用于在客户申请贷款或信用卡时评估其信用风险。
通过客户的个人信息、财务状况、信用记录等数据进行评分。

行为评分卡（Behavioral Scorecard）：

用于评估现有客户的信用风险。
通过客户在使用贷款或信用卡过程中的行为数据进行评分，如还款记录、消费习惯等。

催收评分卡（Collection Scorecard）：

用于评估逾期客户的还款可能性。
帮助制定催收策略，提高催收效率。

欺诈评分卡（Fraud Scorecard）：

用于检测和预防欺诈行为。
通过分析交易数据、申请数据等识别潜在的欺诈风险。

月亮月亮要去太阳

关注

19
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
机器学习补充

比较坏账率（Bad Rate Comparison）是指在不同的数据集或不同的时间段内，对目标变量（通常是二分类问题中的坏账率，即负样本率）进行比较，以评估模型的稳定性和数据分布的变化。在信用评分和风控模型中，WOE编码是一种常用的特征工程方法，它将原始特征转换为一个新的特征，以增强模型的解释性和预测性能。对各个特征进行 WOE 编码的主要目的是将原始特征转换为一个反映特征与目标变量（如违约与否）之间关系的数值。具体来说，KS值表示正类样本的累积分布函数（CDF）与负类样本的累积分布函数之间的最大差异。
复制链接

扫一扫