- 博客(5)
- 收藏
- 关注
转载 DW金融风控-task05模型融合
一、介绍 模型融合是比赛后期上分的重要手段,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升,以下是模型融合的方式。 平均: 简单平均法 加权平均法 投票: 简单投票法 加权投票法 综合: 排序融合 log融合 stacking: 构建多层模型,并利用预测结果再拟合预测。 blending: 选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。 boosting/bagging stacking 将若干基学习器获得的预测结果,将预测结果作为新的训练集来训练一个学习器。如
2020-09-27 23:36:05 154
转载 DW金融风控-task04 建模调参
一、逻辑回归模型: 理解逻辑回归模型 逻辑回归模型的应用 逻辑回归的优缺点 优点 训练速度较快,分类的时候,计算量仅仅只和特征的数目相关; 简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响; 适合二分类问题,不需要缩放输入特征; 内存资源占用小,只需要存储各个维度的特征值; 缺点 逻辑回归需要预先处理缺失值和异常值【可参考task3特征工程】; 不能用Logistic回归去解决非线性问题,因为Logistic的决策面是线性的; 对多重共线性数据较为敏感,且很难处理数据
2020-09-24 20:53:05 146
转载 DW金融风控-task03 特征工程
一、数据预处理 数据预处理部分一般我们要处理一些EDA阶段分析出来的问题。 导入包 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import datetime from tqdm import tqdm from sklearn.preprocessing import LabelEncoder from sklearn.feature_selection imp
2020-09-21 23:40:07 232
原创 DW金融风控-task02数据分析
一、目的 1. 熟悉了解整个数据集的基本情况,例如缺失值,异常值。 a. 读取数据集并了解数据集大小,原始特征维度; b. 通过info熟悉数据类型; c. 粗略查看数据集中各特征基本统计量; d. 查看数据缺失值情况 e. 查看唯一值特征情况 f. 查看数据类型 ·类别型数据 ·数值型数据 ·离散数值型数据 ·连续数值型数据 2. 了解变量间的相互关系、变量与预测值之间的存在关系。 a. 特征和特征之间关系 b. 特征和目标变量之间关系 c. 用pandas_profiling生成数据报
2020-09-17 23:49:13 407
原创 DW金融风控-task01赛题理解
Task01 赛题理解 总数据量超过 120w,包含47列变量信息,其中15列为匿名变量。从80万条作为训练集,20 万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。 一、 预测指标 AUC 1. 混淆矩阵(Confuse Matrix) TP、FN、FP、TN (1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive) (2)若一个实例是正类,但是被预测为负类,即为假负类FN(Fa
2020-09-15 12:35:48 415
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人