机器学习
文章平均质量分 53
truffle528
这个作者很懒,什么都没留下…
展开
-
客户贷款逾期预测[3]-xgboost和lightgbm
任务 根据客户贷款数据预测客户是否会逾期,1表示会,0表示不会。实现# -*- coding: utf-8 -*-"""Created on Thu Nov 15 13:02:11 2018@author: keepi"""import pandas as pdfrom sklearn.model_selection import train_test_sp...原创 2018-11-18 21:34:06 · 1175 阅读 · 2 评论 -
客户贷款逾期预测[4]-记录评分、绘制roc曲线
任务 记录五个模型(逻辑回归、svm、决策树、xgboost、lightgbm)关于precision、recall score、f1 score、roc、aoc的评分表格。实现# -*- coding: utf-8 -*-"""Created on Thu Nov 15 13:02:11 2018@author: keepi"""import pandas...原创 2018-11-21 21:39:02 · 1454 阅读 · 0 评论 -
客户贷款逾期预测[2]-svm和决策树模型
任务 本次以信用贷款数据作为练习数据,目的是学会使用常用的机器学习模型,用它们预测贷款客户是否会逾期,给到的数据已经包含了标签,列名是status,有0和1两种值,0表示未逾期,1表示逾期,所以这是一个二分类的问题。数据处理 在拿到数据之后,首先我们需要探索数据的构成和分布情况以及缺失情况。对于缺失值处理常用众数或者中位数、平均数填补。为了处理方便,一开始可...原创 2018-11-17 09:44:09 · 2578 阅读 · 3 评论 -
模型效果验证方法
对于回归问题,一般采用均方误差验证。 对于分类问题,首先要明确两个概念:查准率和查全率。数据可以分成四种类别:真正例TP、真反例TN、假正例FP、假反例FN。TP是指预测结果是正例,实际也是正例的数据;TN指预测结果是反例,实际也是反例的数据;FP是指预测结果是正例,实际是反例的数据;FN指预测结果是反例,实际是正例的数据。它们可以构成一个混淆矩阵。查准率表示在所...原创 2018-11-17 10:53:18 · 9754 阅读 · 0 评论 -
客户贷款逾期预测[5] - 特征工程
目录 任务数据探索特征删除缺失值处理异常值处理特征生成特征合并特征缩放数据归一化数据标准化相关性分析划分训练集、模型评估和选择参考任务 关于数据类型转换以及缺失值处理(尝试不同的填充看效果)以及你能借鉴的数据探索特征工程import pandas as pdfrom sklearn.model_selecti...原创 2018-11-22 21:29:18 · 2463 阅读 · 1 评论 -
客户逾期贷款预测[6] - 网格搜索调参和交叉验证
任务 使用网格搜索对模型进行调优并采用五折交叉验证的方式进行模型评估实现 之前已经进行过数据探索,缺失值和异常值处理、特征生成、特征删除、缩放等处理,具体可见前几篇博客。本文只进行带交叉验证的网格搜索调参,然后与调参前评分做比较。from sklearn.model_selection import GridSearchCV,train_test...原创 2018-11-24 20:38:59 · 662 阅读 · 0 评论 -
客户贷款逾期预测[7] - 模型融合
任务 用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分。 实现#简单调包实现from mlxtend.classifier import StackingCVClassifier, StackingClassifierclf_stacking = StackingClassifier(classifiers=[svm,d...原创 2018-11-26 20:31:22 · 536 阅读 · 0 评论 -
客户逾期贷款预测[8] - 特征选择(iv值、随机森林)
任务 分别用IV值和随机森林挑选特征,再构建模型,进行模型评估 1 利用iv值挑选特征 这次暂时先用学长计算好的iv值挑选特征,之后再尝试自己计算iv值。选择iv在0.1-0.5之间的特征。import pandas as pdiv = pd.read_csv("iv.csv",encoding='gbk')iv_one = iv[iv.iloc[...原创 2018-11-28 20:29:26 · 1645 阅读 · 0 评论