本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampfr
学习知识点概要
本次学习主要是学习模型融合的几个方法,包括平均、投票、综合、stacking、blending、boosting/bagging
学习内容
模型融合中最常用的方式是stacking和blending,前者的原理是将若干基学习器获得的预测结果,将预测结果作为新的训练集来训练一个学习器,这种过程容易导致过拟合,所以需要使用k折交叉验证来防止这种情况的出现;后者是将预测的值作为新的特征和原特征合并,构成新的特征值,用于预测,使用划分数据来防止过拟合现象,下图是两个模型融合方式的原理图:
在代码实现方面,材料展示平均法、投票法、Stacking和Blending。前面两者方法优点是快速,后面两种方法是适合复杂的情况。代码演示中主要以下学习基:LogisticRegression(),RandomForestClassifier(), ExtraTreesClassifier(),GradientBoostingClassifier()。在Stacking中,需要安装mlxtend,融合结果如下图:
学习问题与解答
问题:投票法使用的是什么函数?代表的原理是什么?
答:投票法是一种集成学习方法,目的是输出基础学习者的预测中最受欢迎(或最受欢迎)的预测,每个基础学习器都是投票者,每个类别都是竞争者,分为硬投票和软投票,材料中用到的是硬投票,是根据少数服从多数来定最终结果,硬投票通过假设投票最多的类别是获胜者,结合了许多预测。在具有两个类别和三个基础学习器的简单情况下,如果目标类别至少具有两票,则它将成为集成法的最后输出,通过VotingClassifier()函数实现。
学习思考与总结
本次主要学习了模型融合的集中方式,模型融合是建模的最后一个阶段,可以提高学习模型泛化能力的一个步骤,也可以防止过拟合,因此在建模过程中十分重要,要重视模型融合方式的选择,一般建议平均法、Stacking和Blending的混合使用。