- 博客(6)
- 收藏
- 关注
原创 金融风控5-模型融合
stacking vs. blending:stacking 将若干基学习器获得的预测结果,将预测结果作为新的训练集来训练一个学习器。假设有五个基学习器,将数据带入五基学习器中得到预测结果,再带入模型六中进行训练预测。但是由于直接由五个基学习器获得结果直接带入模型六中,容易导致过拟合。所以在使用五个及模型进行预测的时候,可以考虑使用K折验证,防止过拟合。blending是将预测的值作为新的特征和原特征合并,构成新的特征值,用于预测。为了防止过拟合,将数据分为两部分d1、d2,使用d1的数据作为训练集,d2.
2020-09-28 09:20:05 123
原创 金融风控4 建模与调参
步骤:4.5.1 导入相关关和相关设置4.5.2 读取数据4.5.3 简单建模建模之前的预操作: 分离出X_train, X_test, Y_train使用Lightgbm进行建模对验证集进行预测4.5.4 模型调参贪心调参网格搜索贝叶斯调参最后,建立最终模型并对验证集进行验证主要问题:在阿里云环境下,使用lightgbm 5折交叉验证进行建模预测的过程中,出现错误:本文基于:https://github.com/datawhalechina/team-learnin
2020-09-24 21:19:52 185
原创 金融风控竞赛笔记3-特征工程
特征预处理首先查找出数据中的对象特征和数值特征然后填充缺失值:在比赛中不妨尝试多种填充然后比较结果选择结果最优的一种缺失值的填充方法把所有缺失值替换为指定的值0向用缺失值上面的值替换缺失值data_train = data_train.fillna(axis=0,method='ffill')纵向用缺失值下面的值替换缺失值,且设置最多只填充两个连续的缺失值data_train = data_train.fillna(axis=0,method='bfill',limit=2
2020-09-20 17:48:54 183
原创 金融风控竞赛笔记2-使用EDA粗略分析数据
Task2 数据分析此部分为零基础入门金融风控的 Task2 数据分析部分,带你来了解数据,熟悉数据,为后续的特征工程做准备,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 零基础入门金融风控之贷款违约目的:1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备项目地址:https://github.com/datawhalechina/t
2020-09-17 21:05:27 146
原创 金融风控学习笔记1-理解赛题
概况比赛要求参赛选手根据给定的数据集,建立模型,预测金融风险。赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。通过这道赛题来引导大家走进金融风控数据竞赛的世界,主要针对于于竞赛新人进行自我练习、自我提高。预
2020-09-15 10:49:35 226
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人