自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 金融风控5-模型融合

stacking vs. blending:stacking 将若干基学习器获得的预测结果,将预测结果作为新的训练集来训练一个学习器。假设有五个基学习器,将数据带入五基学习器中得到预测结果,再带入模型六中进行训练预测。但是由于直接由五个基学习器获得结果直接带入模型六中,容易导致过拟合。所以在使用五个及模型进行预测的时候,可以考虑使用K折验证,防止过拟合。blending是将预测的值作为新的特征和原特征合并,构成新的特征值,用于预测。为了防止过拟合,将数据分为两部分d1、d2,使用d1的数据作为训练集,d2.

2020-09-28 09:20:05 103

原创 金融风控4 建模与调参

步骤: 4.5.1 导入相关关和相关设置 4.5.2 读取数据 4.5.3 简单建模 建模之前的预操作: 分离出X_train, X_test, Y_train 使用Lightgbm进行建模 对验证集进行预测 4.5.4 模型调参 贪心调参 网格搜索 贝叶斯调参 最后,建立最终模型并对验证集进行验证 主要问题:在阿里云环境下,使用lightgbm 5折交叉验证进行建模预测的过程中,出现错误: 本文基于: https://github.com/datawhalechina/team-learnin

2020-09-24 21:19:52 170

原创 金融风控竞赛笔记3-特征工程

特征预处理 首先查找出数据中的对象特征和数值特征 然后填充缺失值:在比赛中不妨尝试多种填充然后比较结果选择结果最优的一种 缺失值的填充方法 把所有缺失值替换为指定的值0 向用缺失值上面的值替换缺失值 data_train = data_train.fillna(axis=0,method='ffill') 纵向用缺失值下面的值替换缺失值,且设置最多只填充两个连续的缺失值 data_train = data_train.fillna(axis=0,method='bfill',limit=2

2020-09-20 17:48:54 154

原创 金融风控竞赛笔记2-使用EDA粗略分析数据

Task2 数据分析 此部分为零基础入门金融风控的 Task2 数据分析部分,带你来了解数据,熟悉数据,为后续的特征工程做准备,欢迎大家后续多多交流。 赛题:零基础入门数据挖掘 - 零基础入门金融风控之贷款违约 目的: 1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模. 2.了解变量间的相互关系、变量与预测值之间的存在关系。 3.为特征工程做准备 项目地址:https://github.com/datawhalechina/t

2020-09-17 21:05:27 133

原创 金融风控学习笔记1-理解赛题

概况 比赛要求参赛选手根据给定的数据集,建立模型,预测金融风险。 赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。 通过这道赛题来引导大家走进金融风控数据竞赛的世界,主要针对于于竞赛新人进行自我练习、自我提高。 预

2020-09-15 10:49:35 185

原创 统计学-任务1

网易公开课·可汗学院·统计学 都是以前学过的,复习了一遍

2019-05-12 20:07:10 122

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除