金融风控训练营Task04 赛事了解 学习笔记

本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampfr

学习知识点概要

本次task主要是了解各种模型以及模型的评价和调参策略,首先是学习机器学习的常用模型,包括逻辑回归模型、树模型、集成模型,然后学习建模过程和调参过程,调参方法包括贪心调参方法、网格调参方法、贝叶斯调参方法

学习内容

(一)这一部分主要是各种模型相关原理以及介绍,材料列出了许多模型,这里以逻辑回归作为主要模型学习笔记。

逻辑回归是将数据拟合到一个logit函数(或者叫做logistic函数)中,从而能够完成对事件发生的概率进行预测。是简单线性回归的完善方法,下面是使用逻辑回归分类的几个图,使用性较强:

 

 

可以看出使用逻辑回归,可以较灵活的将问题分类,逻辑回归常用函数是sigmiod,具有代价函数和梯度下降属性,通过梯度下降方法找到使代价函数值最小的参数,求解逻辑回归参数的传统方法是梯度下降,构造为凸函数的代价函数后,每次沿着偏导方向(下降速度最快方向)迈进一小部分,直至N次迭代后到达最低点。。如下图所示:

 

(二)这一部分模型对比与性能评估包括了模型对比、模型评估方法、模型评价标准。

模型对比

逻辑回归和决策树模型最大的区别在于逻辑回归需要预先处理缺失值和异常值,而决策树不需要,但是两种模型各有优缺点。集成模型是通过组合多个学习器来完成学习任务,通过集成方法,可以将多个弱学习器组合成一个强分类器,因此集成学习的泛化能力一般比单一分类器要好,主要包括Bagging和Boosting,两者在样本选择上、样例权重上、预测函数上和并行计算方面存在一定区别。

模型评估方法

建立模型的根本目的是将学习到的模型应用到模型外的数据上,所以我们不希望出现过拟合的情况,为防止这一情况,我们把数据按照一定原则分成训练数据和测试数据,分别计算训练误差和测试误差。划分数据的方法主要包括留出法,交叉验证法和自助法,各个方法使用的场景不同

模型评价标准

本次赛事使用auc作为评价标准,使用阙值作为分类的界限,使用ROC可视化结果,ROC曲线越接近左上角,该分类器的性能越好,其泛化性能就越好。ROC与X轴、Y轴围成的面积就是AUC

学习问题与解答

问题:代码示例部分的5折交叉验证原理是什么?有什么作用?

答:交叉验证是在机器学习建立模型和验证模型参数时常用的办法,一般被用于评估一个机器学习模型的表现,可以反复调试模型,确保模型的泛化能力。主要思想是将数据集划分为互斥的5个集合,用4个集合做训练,然后剩下的一个做验证,主要有以下几个步骤:①将数据集分为5堆;②选取一堆作为测试集,另外四堆作为训练集;③共重复step2 五次,每次选取的训练集不同。

学习思考与总结

本次学习学了许多模型,每个模型都有自己的优点和缺点,也有着自己的使用方法,作为一位数据分析师,首先要明白所使用的的模型侧重点在哪一方面,这样才能把模型的优点发挥到最好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值