自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

转载 DW金融风控-task05模型融合

一、介绍模型融合是比赛后期上分的重要手段,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升,以下是模型融合的方式。平均:简单平均法加权平均法投票:简单投票法加权投票法综合:排序融合log融合stacking:构建多层模型,并利用预测结果再拟合预测。blending:选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。boosting/baggingstacking 将若干基学习器获得的预测结果,将预测结果作为新的训练集来训练一个学习器。如

2020-09-27 23:36:05 140

转载 DW金融风控-task04 建模调参

一、逻辑回归模型:理解逻辑回归模型逻辑回归模型的应用逻辑回归的优缺点优点训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;适合二分类问题,不需要缩放输入特征;内存资源占用小,只需要存储各个维度的特征值;缺点逻辑回归需要预先处理缺失值和异常值【可参考task3特征工程】;不能用Logistic回归去解决非线性问题,因为Logistic的决策面是线性的;对多重共线性数据较为敏感,且很难处理数据

2020-09-24 20:53:05 135

转载 DW金融风控-task03 特征工程

一、数据预处理数据预处理部分一般我们要处理一些EDA阶段分析出来的问题。导入包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimefrom tqdm import tqdmfrom sklearn.preprocessing import LabelEncoderfrom sklearn.feature_selection imp

2020-09-21 23:40:07 229

原创 DW金融风控-task02数据分析

一、目的1. 熟悉了解整个数据集的基本情况,例如缺失值,异常值。a. 读取数据集并了解数据集大小,原始特征维度;b. 通过info熟悉数据类型;c. 粗略查看数据集中各特征基本统计量;d. 查看数据缺失值情况 e. 查看唯一值特征情况f. 查看数据类型 ·类别型数据 ·数值型数据 ·离散数值型数据 ·连续数值型数据2. 了解变量间的相互关系、变量与预测值之间的存在关系。a. 特征和特征之间关系b. 特征和目标变量之间关系c. 用pandas_profiling生成数据报

2020-09-17 23:49:13 395

原创 DW金融风控-task01赛题理解

Task01 赛题理解总数据量超过 120w,包含47列变量信息,其中15列为匿名变量。从80万条作为训练集,20 万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。一、 预测指标 AUC1. 混淆矩阵(Confuse Matrix)TP、FN、FP、TN (1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive) (2)若一个实例是正类,但是被预测为负类,即为假负类FN(Fa

2020-09-15 12:35:48 399

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除