金融风控训练营Task04 赛事了解学习笔记

最新推荐文章于 2024-09-16 11:16:36 发布

A Pui 。

最新推荐文章于 2024-09-16 11:16:36 发布

阅读量117

点赞数

分类专栏：金融风控学习文章标签：大数据

本文链接：https://blog.csdn.net/qq_45335327/article/details/116240315

版权

金融风控学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容，学习链接为：https://tianchi.aliyun.com/specials/activity/promotion/aicampfr

学习知识点概要

本次task主要是了解各种模型以及模型的评价和调参策略，首先是学习机器学习的常用模型，包括逻辑回归模型、树模型、集成模型，然后学习建模过程和调参过程，调参方法包括贪心调参方法、网格调参方法、贝叶斯调参方法

学习内容

（一）这一部分主要是各种模型相关原理以及介绍，材料列出了许多模型，这里以逻辑回归作为主要模型学习笔记。

逻辑回归是将数据拟合到一个logit函数(或者叫做logistic函数)中，从而能够完成对事件发生的概率进行预测。是简单线性回归的完善方法，下面是使用逻辑回归分类的几个图，使用性较强：

可以看出使用逻辑回归，可以较灵活的将问题分类，逻辑回归常用函数是sigmiod，具有代价函数和梯度下降属性，通过梯度下降方法找到使代价函数值最小的参数，求解逻辑回归参数的传统方法是梯度下降，构造为凸函数的代价函数后，每次沿着偏导方向(下降速度最快方向)迈进一小部分，直至N次迭代后到达最低点。。如下图所示：

（二）这一部分模型对比与性能评估包括了模型对比、模型评估方法、模型评价标准。

模型对比

逻辑回归和决策树模型最大的区别在于逻辑回归需要预先处理缺失值和异常值，而决策树不需要，但是两种模型各有优缺点。集成模型是通过组合多个学习器来完成学习任务，通过集成方法，可以将多个弱学习器组合成一个强分类器，因此集成学习的泛化能力一般比单一分类器要好，主要包括Bagging和Boosting，两者在样本选择上、样例权重上、预测函数上和并行计算方面存在一定区别。

模型评估方法

建立模型的根本目的是将学习到的模型应用到模型外的数据上，所以我们不希望出现过拟合的情况，为防止这一情况，我们把数据按照一定原则分成训练数据和测试数据，分别计算训练误差和测试误差。划分数据的方法主要包括留出法，交叉验证法和自助法，各个方法使用的场景不同

模型评价标准

本次赛事使用auc作为评价标准，使用阙值作为分类的界限，使用ROC可视化结果，ROC曲线越接近左上角，该分类器的性能越好，其泛化性能就越好。ROC与X轴、Y轴围成的面积就是AUC

学习问题与解答

问题：代码示例部分的5折交叉验证原理是什么？有什么作用？

答：交叉验证是在机器学习建立模型和验证模型参数时常用的办法，一般被用于评估一个机器学习模型的表现，可以反复调试模型，确保模型的泛化能力。主要思想是将数据集划分为互斥的5个集合，用4个集合做训练，然后剩下的一个做验证，主要有以下几个步骤：①将数据集分为5堆；②选取一堆作为测试集，另外四堆作为训练集；③共重复step2 五次，每次选取的训练集不同。