DataWhale-数据挖掘实战
beautiful_well
这个作者很懒,什么都没留下…
展开
-
零基础入门数据挖掘 - 二手车交易价格预测 模型融合
基于几个单模型进行模型融合,1、stackingstacking的第二层无须用原创 2020-04-06 20:33:50 · 404 阅读 · 0 评论 -
零基础入门数据挖掘 - 二手车交易价格预测 建模调参
原创 2020-04-01 21:02:36 · 205 阅读 · 0 评论 -
零基础入门数据挖掘 - 二手车交易价格预测 赛题理解和EDA
这个是DataWhale在本次数据挖掘竞赛提供的学习思路图。原创 2020-03-30 19:17:06 · 842 阅读 · 0 评论 -
12天summer----数据挖掘实战-数据分析
本文对任务1的数据进行了初探与可视化处理。任务目标:这份数据集是金融数据(非原始数据,已经处理过了),我们要做的是预测贷款用户是否会逾期。表格中 "status" 是结果标签:0表示未逾期,1表示逾期。任务要求:数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018代码运行环境:JupyterPython 3.6Pandas 0.24.2matp...原创 2019-08-05 21:50:05 · 249 阅读 · 0 评论 -
12天summer----数据挖掘实战-特征工程
探索分析可以更好的了解到数据之间的一些联系和变化规律。同时在多变量分析中通过相关性也可以过滤掉一部分变量。1、异常值处理可以通过箱线图观察异常值import matplotlib.pyplot as pltfrom pylab import mplmpl.rcParams['font.sans-serif'] = ['SimHei']x1=df['repayment_capabi...原创 2019-08-09 13:35:41 · 147 阅读 · 0 评论 -
12天summer----数据挖掘实战- 建模
使用逻辑回归、svm和决策树;随机森林和XGBoost进行模型构建。逻辑回归:是机器学习分类算法的一种,它在线性回归模型的基础上加入类别映射,从而实现分类问题。支持向量机:主要讲特征空间通过非线性变换的方式映射到一个高维(甚至无限维)的特征空间,并在这个高维空间中找到最优线性分界超平面的一种方法。不仅需要这个分界超平面能够把两个类别的数据正确分割开,还需要使这两类数据之间的分类间隔达到最大...原创 2019-08-18 19:22:38 · 132 阅读 · 0 评论 -
12天summer----数据挖掘实战-模型评估
记录5个模型(逻辑回归、SVM、决策树、随机森林、XGBoost)关于accuracy、precision,recall和F1-score、auc值的评分表格,并画出ROC曲线。参考:https://www.jianshu.com/p/5df19746daf9https://blog.csdn.net/huacha__/article/details/81029680先定义评估函数#...原创 2019-08-18 21:56:18 · 171 阅读 · 0 评论 -
12天summer----数据挖掘实战-模型调优
模型调参-利器 GridSearchCV(网格搜索)参考:https://blog.csdn.net/weixin_41988628/article/details/83098130由 于 带 交 叉 验 证 的 网 格 搜 索 是 一 种 常 用 的 调 参 方 法, 因 此 scikit-learn 提 供 了GridSearchCV 类,它以估计器(estimator)的形式实现了这...原创 2019-08-18 23:50:55 · 130 阅读 · 0 评论 -
12天summer----数据挖掘实战-模型融合
Stacking 是一种集合学习技术,通过元分类器组合多个分类模型。基于完整训练集训练各个分类模型; 然后,基于整体中的各个分类模型的输出 - 元特征来拟合元分类器。元分类器可以根据预测类标签或来自集合的概率进行训练。参考:https://blog.csdn.net/github_35965351/article/details/60763606参考:http://rasbt.github...原创 2019-08-19 17:52:38 · 204 阅读 · 0 评论