广东工业天池龙珠计划-金融风控训练营Task-4

最新推荐文章于 2021-05-05 23:58:16 发布

kkinn_

最新推荐文章于 2021-05-05 23:58:16 发布

阅读量109

点赞数

分类专栏： python学习过程

本文链接：https://blog.csdn.net/m0_51981443/article/details/116333434

版权

python学习过程专栏收录该内容

7 篇文章 0 订阅

订阅专栏

广东工业天池龙珠计划-金融风控训练营

本文学习与引用的是天池龙珠计划金融风控训练营的Task Four内容，链接如下：

https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.8.14e54d57UpSCyk&postId=170951

学习知识点概要

学习在金融分控领域常用的机器学习模型
学习机器学习模型的建模过程与调参流程

学习内容

前言
【天池】金融风控-贷款违约预测（赛题链接）。
上一篇特征工程时已经对特征工程以及分析方法的介绍，主要熟悉了特征预处理、缺失值、异常值处理、数据分桶等特征处理方法；特征交互、编码、选择的相应方法，并且对赛题的数据进行了数据预处理，特征工程处理。本篇将进数据建模和模型调参的介绍：

金融风控领域常用的机器学习模型；
机器学习模型的建模过程与调参流程。
内容介绍
逻辑回归模型：
a. 理解逻辑回归模型；
b. 逻辑回归模型的应用；
c. 逻辑回归的优缺点；
树模型：
a. 理解树模型；
b. 树模型的应用；
c. 树模型的优缺点；
集成模型：
a. 基于bagging思想的集成模型：随机森林模型；
b. 基于boosting思想的集成模型：XGBoost模型、LightGBM模型、CatBoost模型；
模型对比与性能评估：
a. 回归模型/树模型/集成模型；
b. 模型评估方法；
c. 模型评价结果；
模型调参：
a. 贪心调参方法；
b. 网格调参方法；
c. 贝叶斯调参方法；
模型对比与性能评估
1 、逻辑回归
（1）. 优点
a. 训练速度较快，分类的时候，计算量仅仅只和特征的数目相关；
b. 简单易理解，模型的可解释性非常好，从特征的权重可以看到不同的特征对最后结果的影响；
c. 适合二分类问题，不需要缩放输入特征；
d. 内存资源占用小，只需要存储各个维度的特征值；
（2）. 缺点
a. 逻辑回归需要预先处理缺失值和异常值【可参考task3特征工程】；
b. 不能用Logistic回归去解决非线性问题，因为Logistic的决策面是线性的；
c. 对多重共线性数据较为敏感，且很难处理数据不平衡的问题；
d. 准确率并不是很高，因为形式非常简单，很难去拟合数据的真实分布；
2 、决策树模型
（1）. 优点
a. 简单直观，生成的决策树可以可视化展示；
b. 数据不需要预处理，不需要归一化，不需要处理缺失数据 c. 既可以处理离散值，也可以处理连续值；
（2）. 缺点
a. 决策树算法非常容易过拟合，导致泛化能力不强（可进行适当的剪枝）；
b. 采用的是贪心算法，容易得到局部最优解；
3 、集成模型集成方法（ensemble method）
通过组合多个学习器来完成学习任务，集成方法可以将多个弱学习器组合成一个强分类器，因此集成学习的泛化能力一般比单一分类器要好。
集成方法主要包括Bagging和Boosting，都是将已有的分类或回归算法通过一定方式组合起来，形成一个更加强大的分类。两种方法都是把若干个分类器整合为一个分类器的方法，只是整合的方式不一样，最终得到不一样的效果。常见的基于Bagging思想的集成模型有：随机森林;基于Boosting思想的集成模型有：Adaboost、GBDT、XgBoost、LightGBM等。
Bagging和Boosting的区别总结如下：
(1). 样本选择上： Bagging方法的训练集是从原始集中有放回的选取，所以从原始集中选出的各轮训练集之间是独立的；而Boosting方法需要每一轮的训练集不变，只是训练集中每个样本在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整;
(2). 样例权重上： Bagging方法使用均匀取样，所以每个样本的权重相等；而Boosting方法根据错误率不断调整样本的权值，错误率越大则权重越大;
(3). 预测函数上： Bagging方法中所有预测函数的权重相等；而Boosting方法中每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重;
(4). 并行计算上： Bagging方法中各个预测函数可以并行生成；而Boosting方法各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。
4 、模型评估方法
对于模型来说，其在训练集上面的误差我们称之为训练误差或者经验误差，而在测试集上的误差称之为测试误差。对于我们来说，我们更关心的是模型对于新样本的学习能力，即我们希望通过对已有样本的学习，尽可能的将所有潜在样本的普遍规律学到手，而如果模型对训练样本学的太好，则有可能把训练样本自身所具有的一些特点当做所有潜在样本的普遍特点，这时候我们就会出现过拟合的问题。
因此我们通常将已有的数据集划分为训练集和测试集两部分，其中训练集用来训练模型，而测试集则是用来评估模型对于新样本的判别能力。
对于数据集的划分，我们通常要保证满足以下两个条件：
（1）. 训练集和测试集的分布要与样本真实分布一致，即训练集和测试集都要保证是从样本真实分布中独立同分布
采样而得；
（2）. 训练集和测试集要互斥
对于数据集的划分有三种方法：留出法，交叉验证法和自助法：
①留出法
留出法是直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T。需要注意的是在划分的时候要尽可能保证数据分布的一致性，即避免因数据划分过程引入额外的偏差而对最终结果产生影响。为了保证数据分布的一致性，通常我们采用分层采样的方式来对数据进行采样。
Tips：通常，会将数据集D中大约2/3~4/5的样本作为训练集，其余的作为测试集。
②交叉验证法
k折交叉验证通常将数据集D分为k份，其中k-1份作为训练集，剩余的一份作为测试集，这样就可以获得k组训练/测试集，可以进行k次训练与测试，最终返回的是k个测试结果的均值。交叉验证中数据集的划分依然是依据分层采样的方式来进行。
对于交叉验证法，其k值的选取往往决定了评估结果的稳定性和保真性，通常k值选取10。当k=1的时候，我们称之为留一法。
③自助法
我们每次从数据集D中取一个样本作为训练集中的元素，然后把该样本放回，重复该行为m次，这样我们就可以得到大小为m的训练集，在这里面有的样本重复出现，有的样本则没有出现过，我们把那些没有出现过的样本作为测试集。进行这样采样的原因是因为在D中约有36.8%的数据没有在训练集中出现过。留出法与交叉验证法都是使用分层采样的方式进行数据采样与划分，而自助法则是使用有放回重复采样的方式进行数据采样。

学习问题与解答

怎么实现金融领域的建模？
Tips1：金融风控的实际项目多涉及到信用评分，因此需要模型特征具有较好的可解释性，所以目前在实际项目中多还是以逻辑回归作为基础模型。但是在比赛中以得分高低为准，不需要严谨的可解释性，所以大多基于集成算法进行建模。

Tips2：因为逻辑回归的算法特性，需要提前对异常值、缺失值数据进行处理【参考task3部分】
1、Bagging和Boosting的区别：
（1）样本选择上：
Q2:
Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。
Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
（2）样例权重：

Bagging：使用均匀取样，每个样例的权重相等

Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

（3）预测函数：

Bagging：所有预测函数的权重相等。

Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。
（4）并行计算：

Bagging：各个预测函数可以并行生成

Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。