数据挖掘
爱学习的小崽子
这个作者很懒,什么都没留下…
展开
-
【转载】用XGBoost解释机器学习
【转载】用XGBoost解释机器学习。 来源:Scott Lundberg,来源:数据派THU 本文长度为4300字,建议阅读8分钟 本文为大家介绍用XGBoost解释机器学习。 这是一个故事,关于错误地解释机器学习模型的危险以及正确解释所带来的价值。如果你发现梯度提升或随机森林之类的集成树模型具有很稳定的准确率,但还是需要对其进行解释,那我希望你能从这篇文章有所收获。 &n...转载 2020-10-06 21:02:44 · 323 阅读 · 0 评论 -
【天池】金融风控贷款违约预测task5
【天池】金融风控贷款违约预测task5task5学习总结:1)简单平均和加权平均是常用的两种比赛中模型融合的方式。其优点是快速、简单。2)stacking在众多比赛中大杀四方,但是跑过代码的小伙伴想必能感受到速度之慢,同时stacking多层提升幅度并不能抵消其带来的时间和内存消耗,所以实际环境中应用还是有一定的难度。3)当然在比赛中将加权平均、stacking、blending等混用也是一种策略。# task5 模型融合# 方法:1)平均:简单、加权;2)投票:简单、加权;3)综合:排序融合、原创 2020-09-27 21:39:52 · 408 阅读 · 0 评论 -
【天池】贷款违规风险预测task4
# lightGBM方法简单建模待调参完善# 本地验证 0.7315930724616382# lightGBM方法import pandas as pdimport numpy as npfrom category_encoders.target_encoder import TargetEncoderfrom sklearn.model_selection import KFoldfrom sklearn.metrics import auc, roc_curvefrom light原创 2020-09-24 21:17:00 · 401 阅读 · 1 评论 -
【天池】贷款违约预测task3
【天池】贷款违约预测task3——特征工程篇阶段目标:1)特征预处理:包括缺失值处理、异常值处理、特征分框;2)特征编码:对象型特征编码、特征归一化等;3)特征筛选:过滤无用特征(卡方、相关系数、正则化项等);4)简单建模:XGBoost、LightGBM# 3阶段目标 特征工程# 特征预处理、缺失值异常值处理、数据分桶# 特征交互、编码import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport se原创 2020-09-21 11:56:35 · 592 阅读 · 0 评论 -
【天池】金融风控数据挖掘task2
Task2 探索性数据分析此部分为零基础入门金融风控的 Task2 数据分析部分,带你来了解数据,熟悉数据,为后续的特征工程做准备,代码如下:import pandas as pdimport numpy as nptrain = pd.read_csv(r'/home/corn/桌面/tianchifengkong/train.csv')testA = pd.read_csv(r'/home/corn/桌面/tianchifengkong/testA.csv')print('Train原创 2020-09-18 17:53:46 · 338 阅读 · 0 评论 -
【天池】金融风控数据挖掘task1
天池金融风控数据挖掘task11.赛题理解赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。2.赛题流程3. 评价指标3.1 分类算法常用1)混淆矩阵、2)准确率(Accuracy)、精确率(Preci原创 2020-09-15 13:56:20 · 242 阅读 · 0 评论