风控建模算法

最新推荐文章于 2024-06-05 15:34:14 发布

Matarin

最新推荐文章于 2024-06-05 15:34:14 发布

阅读量784

点赞数

分类专栏： python 文章标签：算法机器学习 sklearn

本文链接：https://blog.csdn.net/Matarin/article/details/120348895

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

逻辑回归

1.原理

在这里插入图片描述

2.损失函数

损失函数可根据最大似然函数得到
在这里插入图片描述

3.迭代方式

随着每次用于更新梯度样本的增加，梯度更准确、迭代次数变少，内存消耗更严重，收敛更慢
批量梯度下降：全样本更新梯度
小样本梯度下降：部分样本更新梯度
随机梯度下降：每次一个样本更新梯度
在这里插入图片描述

4. 特点

①统计解释性好
②线性模型，准确率较低，欠拟合
③模型简单，计算成本低
④适用于小样本量、低特征维度

XGBOOST

1.原理

基于每个基分类器（如CART回归分类树）的集成模型，每个分类器采用前面所有结果的残差作为目标值，进行新分类器的训练，求和得到预测值（加法模型）
在这里插入图片描述

2.损失函数

在这里插入图片描述
特征维度的并行计算，计算分裂点时，可并行计算每个特征；梯度即残差，所以梯度大的样本更重要

3.迭代方式

在这里插入图片描述

4.特点

①非线性模型，准确率高
②适用于中等以上样本量
③实现并行运算，计算效率高
④解释性欠缺

5、6参考

5. XGBoost与GBDT有什么不同

除了算法上与传统的GBDT有一些不同外，XGBoost还在工程实现上做了大量的优化。总的来说，两者之间的区别和联系可以总结成以下几个方面。

GBDT是机器学习算法，XGBoost是该算法的工程实现。
在使用CART作为基分类器时，XGBoost显式地加入了正则项来控制模型的复杂度，有利于防止过拟合，从而提高模型的泛化能力。
GBDT在模型训练时只使用了代价函数的一阶导数信息，XGBoost对代价函数进行二阶泰勒展开，可以同时使用一阶和二阶导数。
传统的GBDT采用CART作为基分类器，XGBoost支持多种类型的基分类器，比如线性分类器。
传统的GBDT在每轮迭代时使用全部的数据，XGBoost则采用了与随机森林相似的策略，支持对数据进行采样。
传统的GBDT没有设计对缺失值进行处理，XGBoost能够自动学习出缺失值的处理策略。

6.为什么XGBoost要用泰勒展开，优势在哪里？

XGBoost使用了一阶和二阶偏导, 二阶导数有利于梯度下降的更快更准. 使用泰勒展开取得函数做自变量的二阶导数形式, 可以在不选定损失函数具体形式的情况下, 仅仅依靠输入数据的值就可以进行叶子分裂优化计算, 本质上也就把损失函数的选取和模型算法优化/参数选择分开了. 这种去耦合增加了XGBoost的适用性, 使得它按需选取损失函数, 可以用于分类, 也可以用于回归。