自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

转载 DW金融风控-task05模型融合

一、介绍 模型融合是比赛后期上分的重要手段,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升,以下是模型融合的方式。 平均: 简单平均法 加权平均法 投票: 简单投票法 加权投票法 综合: 排序融合 log融合 stacking: 构建多层模型,并利用预测结果再拟合预测。 blending: 选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。 boosting/bagging stacking 将若干基学习器获得的预测结果,将预测结果作为新的训练集来训练一个学习器。如

2020-09-27 23:36:05 154

转载 DW金融风控-task04 建模调参

一、逻辑回归模型: 理解逻辑回归模型 逻辑回归模型的应用 逻辑回归的优缺点 优点 训练速度较快,分类的时候,计算量仅仅只和特征的数目相关; 简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响; 适合二分类问题,不需要缩放输入特征; 内存资源占用小,只需要存储各个维度的特征值; 缺点 逻辑回归需要预先处理缺失值和异常值【可参考task3特征工程】; 不能用Logistic回归去解决非线性问题,因为Logistic的决策面是线性的; 对多重共线性数据较为敏感,且很难处理数据

2020-09-24 20:53:05 146

转载 DW金融风控-task03 特征工程

一、数据预处理 数据预处理部分一般我们要处理一些EDA阶段分析出来的问题。 导入包 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import datetime from tqdm import tqdm from sklearn.preprocessing import LabelEncoder from sklearn.feature_selection imp

2020-09-21 23:40:07 232

原创 DW金融风控-task02数据分析

一、目的 1. 熟悉了解整个数据集的基本情况,例如缺失值,异常值。 a. 读取数据集并了解数据集大小,原始特征维度; b. 通过info熟悉数据类型; c. 粗略查看数据集中各特征基本统计量; d. 查看数据缺失值情况 e. 查看唯一值特征情况 f. 查看数据类型 ·类别型数据 ·数值型数据 ·离散数值型数据 ·连续数值型数据 2. 了解变量间的相互关系、变量与预测值之间的存在关系。 a. 特征和特征之间关系 b. 特征和目标变量之间关系 c. 用pandas_profiling生成数据报

2020-09-17 23:49:13 407

原创 DW金融风控-task01赛题理解

Task01 赛题理解 总数据量超过 120w,包含47列变量信息,其中15列为匿名变量。从80万条作为训练集,20 万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。 一、 预测指标 AUC 1. 混淆矩阵(Confuse Matrix) TP、FN、FP、TN (1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive) (2)若一个实例是正类,但是被预测为负类,即为假负类FN(Fa

2020-09-15 12:35:48 415

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除