- 博客(6)
- 收藏
- 关注
原创 TASK 5 模型融合
TASK 5 模型融合总结自《Datawhale 零基础入门数据挖掘-Task 5-模型融合》-ML67Stacking1)stacking 是用初始训练数据学习出若干个基学习器后,将这几个学习器的预测结果作为新的训练集,来学习一个新的学习器。。2)结合策略:如何将个体学习器结合在一起使用的方法。分类可以使用投票法。回归可以求平均值。(Bagging策略常用方法)3)个体学习器为初级学习...
2020-04-04 10:24:22
156
原创 TASK 4 建模调参
TASK 4 建模调参总结自《Datawhale 零基础入门数据挖掘-Task4 建模调参》-小雨模型构建1)Python中的Sklearn库对常用模型已经很好的集成了,一些集成学习也包括其中。XGBoost模型和LightGBM也是相关竞赛中常用的模型,效果很好。可以通过pip进行安装。回归模型常用的损失函数主要为MSE。2)回归模型:包括线性回归模型、Lasso回归、Ridge回归等。...
2020-04-01 09:51:18
150
原创 TASK 3 特征工程
TASK 3 特征工程总结自《Datawhale 零基础入门数据挖掘-Task3 特征工程》-阿泽数据预处理1)异常值处理:处理方式主要包括箱线图、3σ准则、BOX-COX转换(可以处理有偏分布)、长尾截断等。2)缺失值处理:处理方式主要包括删除(缺失值过多)、插值补全(可通过众数、中位数、均值等多种方式进行填补)、不处理等。3)归一化/标准化处理:归一化/标准化可以去除量级对数据的影响...
2020-03-27 15:33:54
299
原创 TASK 2 数据的探索性分析(EDA)
TASK 2 数据的探索性分析(EDA) About 二手车交易价格预测数据概览1)明确任务:预测二手车交易价格这一任务主要为回归任务,共计包含31列特征,其中不仅包含连续参数,同时还包含离散参数。通过对这31列特征进行建模,从而根据二手车的相关特征获得该二手车可能的交易价格。2)数据统计:通过describe()函数对数据的整体统计量进行观察,把握大体数据范围,也可以通过Max和Min初步...
2020-03-24 10:58:14
181
原创 数据挖掘之旅——Jupyter Notebook使用学习
从Jupyter Notebook使用学习Jupter Notebook默认目录的修改相关问题Jupter Notebook默认目录的修改 依照炼数成金中Ben的Tensorflow中的介绍,默认目录的修改需要打开jupyter_notebook_config.py来进行配置。文件位置如下:C→Users→Administrator→.jupyter→jupyter_notebook_c...
2018-10-17 00:13:48
444
原创 数据挖掘之旅——从Tensorflow-gpu(Win10)安装开始
数据挖掘之旅——从Tensorflow-gpu(Win10)安装开始0. 引言1. Tensorflow的简介2. Tensorflow-GPU版本的安装2.1 Anaconda的安装2.2 CUDA的安装2.3 cuDNN的安装2.4 Tensorflow的安装3. Tensorflow-GPU版本的安装过程中出现的问题0. 引言 由于研究方向和个人爱好的指引,从此走上了数据挖掘的不...
2018-10-16 21:23:01
262
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人