互联网金融风控面试算法知识(二)_金融风控算法-CSDN博客

本文链接：https://blog.csdn.net/lc434699300/article/details/121275464

资料来源于网络搜集和汇总，把算法知识的总结放在业务知识后面也是为了说明实际工作业务落地应用的重要性大于算法创新。面试题依然是适用于3年经验以内的初学者，希望大家在学习算法的同时不要一心只研究算法而脱离了业务，要真正做到数据驱动业务。先附上之前对算法的一些总结：

1.常用机器学习算法的原理推导

2.评分卡的一些理论知识

一、什么是集成学习？集成学习有哪些框架？简单介绍各个框架的常用算法。

集成学习是一种优化手段和策略，通常是结合多个简单的弱分类器来集成模型组，去做更可靠的决策。一般的弱分类器可以是决策树，SVM，kNN等构成，其中的模型可以单独来训练，并且这些弱分类器以某种方式结合在一起去做出一个总体预测。集成学习就是找出哪些弱分类器可以结合在一起，以及如何结合的方法。目前集成学习主要有bagging，boosting，stacking三种：

bagging：对训练集进行随机子抽样，对每个子训练集构建基模型，对所有的基模型的预测结果进行综合产生最后的预测结果。如果是分类算法，则用多数投票法确定最终类别，如果是回归算法，则将各个回归结果做算术平均作为最终的预测值。常用的bagging算法：随机森林

boosting：训练过程为阶梯状，基模型按照次序进行训练（实际上可以做到并行处理），先给定一个初始训练数据，训练出第一个基模型，根据基模型的表现对样本进行调整，在之前基模型预测错误的样本上投入更多的关注，然后用调整后的样本训练下一个基模型，重复上述过程N次，将N个基模型进行加权结合，输出最后的结果。常用的算法有GBDT，XGBOOST等。

stacking：是一种组合分类器的方法，以两层为例，第一层由多个基学习器组成，其输入为原始训练集，第二层的模型则是以第一层基学习器的输出作为训练集进行再训练(一般用LR进行回归组合），从而得到完整的stacking模型。要得到stacking模型，关键在于如何构造第二层的特征，构造第二层特征的原则是尽可能的避免信息泄露，因此对原始训练集常常采用类似于K折交叉验证的划分方法。各个基模型要采用相同的Kfold，这样得到的第二层特征的每一折（对应于之前的K折划分）都将不会泄露进该折数据的目标值信息，从而尽可能的降低过拟合的风险。

二、简单描述一下模型的偏差和方差？bagging和boosting主要关注哪个？

偏差描述的是预测值与真实值的差距，偏差越大，越偏离真实数据。

方差描述的是预测值的变化范围，离散程度，方差越大，数据分布越分散。

bagging主要关注的是降低方差，boosting主要关注降低偏差。因为bagging采取分而治之的策略，对训练样本多次采样，训练多个模型做综合，减小分类器的方差；boosting通过逐步聚焦于基分类器分错的样本，减小集成分类器的偏差。

三、简述一下随机森林的原理，随机森林的构造过程。

随机森林是bagging算法的代表，使用了CART树作为弱分类器，将多个不同的决策树进行组合，利用这种组合来降低单棵决策树的可能带来的片面性和判断不准确性。对于普通的决策树，是在所有样本特征中找一个最优特征来做决策树的左右子树划分，而随机森林会先通过自助采样的方法（bootstrap）得到N个训练集，然后在单个训练集上会随机选择一部分特征，来选择一个最优特征来做决策树的左右子树划分，最后得到N棵决策树，对于分类问题，按多数投票的准则确定最终结果，对于回归问题，由多棵决策树的预测值的平均数作为最终结果。随机森林的随机性体现在两方面，一个是选取样本的随机性，一个是选取特征的随机性࿰