算法实践
被月亮晒黑_
这个作者很懒,什么都没留下…
展开
-
【机器学习-贷款用户逾期情况分析】1.模型构建
0.数据介绍数据的下载地址 https://pan.baidu.com/s/1dtHJiV6zMbf_fWPi-dZ95g注:这份数据集是金融数据(非原始数据,已经处理过了),我们要做的是预测贷款用户是否会逾期。表格中 "status" 是结果标签:0表示未逾期,1表示逾期。 1.模型构建 1.0任务说明将金融数据集三七分,随机种子2018,调用sklearn包,简...原创 2019-01-03 20:29:57 · 2484 阅读 · 1 评论 -
【机器学习-贷款用户逾期情况分析】2.集成模型构建
2.0 任务说明接着上一篇博客的金融数据集,这次构建随机森林、GBDT、XGBoost和LightGBM这4个模型,并对每一个模型进行评分,例如准确度和auc值。在集成学习中,主要分为bagging算法和boosting算法,上面的算法中随机森林属于bagging算法,另外三个是boosting方法。2.1 随机森林随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。(...原创 2019-01-05 21:08:54 · 644 阅读 · 0 评论 -
【机器学习-贷款用户逾期情况分析】3.模型评估
3.0 任务说明前面讲了七个模型的建立以及评估,这次把模型评估单独拿出来详细讲一下,记录7个模型(逻辑回归、SVM、决策树、随机森林、GBDT、XGBoost和LightGBM)关于accuracy、precision,recall和F1-score、auc值的评分表格,并画出ROC曲线。 3.1 准备工作在模型评估之前,我们先把两个东西算出来,一个是预测后的得分矩阵,一个是预测后...原创 2019-01-07 21:20:40 · 1070 阅读 · 0 评论 -
【机器学习-贷款用户逾期情况分析】4.模型调优
4.0 任务说明使用网格搜索法对7个模型进行调优(调参时采用五折交叉验证的方式),并进行模型评估。 4.1 网格搜索与K折验证网格搜索算法是一种通过遍历给定的参数组合来优化给定模型性能的方法。我们可以直接调用gridsearchcv()函数实现对给定数据集和模型的基于k折验证的网格搜索方法。函数如下:GridSearchCV(estimator, param_grid, s...原创 2019-01-09 21:50:56 · 741 阅读 · 0 评论 -
【机器学习-贷款用户逾期情况分析2】1.数据预处理
0.数据介绍数据的下载地址 https://pan.baidu.com/s/1wO9qJRjnrm8uhaSP67K0lw注:这份数据集是金融数据(非原始数据,已经处理过了),我们要做的是预测贷款用户是否会逾期。表格中 "status" 是结果标签:0表示未逾期,1表示逾期。注意这个数据跟我上几篇博客的数据不一样。 1.数据预处理 1.1数据类型的分析(1)划分数据和标签...原创 2019-01-27 06:26:00 · 1098 阅读 · 0 评论 -
【机器学习-贷款用户逾期情况分析2】2.特征工程
2.0 任务说明特征选择:分别用IV值和随机森林进行特征选择。再用【算法实践】中的7个模型(逻辑回归、SVM、决策树、随机森林、GBDT、XGBoost和LightGBM),进行模型评估。 2.1 特征选择特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribute Sele...原创 2019-01-29 21:52:23 · 839 阅读 · 0 评论 -
【机器学习-贷款用户逾期情况分析2】3.stacking模型融合
3.0 任务说明用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分果。 3.1 stacking模型融合Stacking(有时候也称之为stacked generalization)是指训练一个模型用于组合(combine)其他各个模型。即首先我们先训练多个不同的模型,然后再以之前训练的各个模型的输出为输入来训练一个模型,以得到一个最终的输出...原创 2019-02-27 11:13:41 · 691 阅读 · 0 评论