scikit-learn 一周算法实践集训
简介
12个人的小组练习任务 - 提升算法实践能力.
【数据】数据是金融数据, 我们要做的是预测贷款用户是否会逾期. 表格中, status是标签: 0表示未逾期, 1表示逾期.
【学习过程】: 构建模型 - 模型融合 - 模型评估 - 交叉验证 - 模型调参 - 特征工程
【遵循】一次只做一件事, 先实现再优化
【期望目标】掌握数据挖掘的流程, 提升合作的能力.
代码说明
代码目录 https://github.com/spareribs/kaggleSpareribs/tree/master/Overdue
代码目录结构
Overdue
├─dl: 深度学习 TODO
├─ml: 机器学习
│ ├─code
│ │ ├─ sklearn_config.py: 模型配置文件
│ | ├─ sklearn_gcv.py: 模型配置 网络搜索
│ | └─ sklearn_train.py: 模型训练
│ ├─data: 数据存放的目录
│ ├─features:
│ | └─ base.py: 数据预处理
│ └─for beginner: TODO
└─config.py: 全局配置
代码使用方法
- 【必须】config.py 设置文件存放的路径
- 【必须】先执行 features 中的 base.py 先把数据处理好 [PS:需要根据实际情况修改]
- 【可选】再通过 code 中的 sklearn_gcv.py 搜索模型的最佳配置
- 【必须】最后通过 code 中的 sklearn_train.py 训练模型输出结果
个人总结
- 机器学习 scikit-learn2 模型实践 - 逻辑回归
- 机器学习 scikit-learn3 模型实践 - 支持向量机和决策树
- 机器学习 scikit-learn4 模型实践 - xgboost和lightgbm
- 机器学习 scikit-learn5 模型评分 - AUC ROC
- 机器学习 scikit-learn6 特征工程 - 数据预处理
- 机器学习 scikit-learn7 网络搜索 - CV & Gird Search
参考文档
任务1. 逻辑回归模型实践【2018.11.14 - 2018.11.15】
爖:https://github.com/LongJH/ALittleTarget/blob/master/Mission1/mission1-lr.ipynb
Ash:https://blog.csdn.net/truffle528/article/details/84072452
憨宝宝:https://blog.csdn.net/qq_41205464/article/details/84111934
黑桃