Datawhale 零基础入门数据挖掘
沈玥伶
保持每天输入和输出
展开
-
Task5模型融合整理笔记
1.概念和分类模型融合用于对多个模型进行融合以得到优于单个模型的效果。模型融合的方法主要有:(1)加权求和融合回归:算术平均融合,几何平均融合分类:投票融合综合:排序融合,log融合(2) stacking/blending将多个模型得到的预测结果concate之后再次进行模型预测(3) boosting/bagging决策树方法2. 代码实例2.1 加权融合2.2. St...原创 2020-04-04 21:41:42 · 209 阅读 · 0 评论 -
Task4建模和调参整理
1.概念和作用此部分利用特征工程得到的数据,尝试用各种模型进行拟合。包括各种模型的比较和各种调参方法的比较。2.标签数据处理很多模型假设数据误差项服从正态分布,所以需要对数据进行log(x+1)变换消除标签的长尾效应,使标签接近正态分布。train_y_ln = np.log(train_y + 1)标签正态化之前,预测值和真实值之间偏差较大:标签正态化之后,预测值和真实值之间偏差明...原创 2020-04-01 20:22:28 · 236 阅读 · 0 评论 -
Task3 特征工程整理笔记
1.概念和目的特征工程用于对数据进行预处理,以得到适合作为某一模型输入的特征序列。特征工程和模型相关,不同的模型需要进行不同的特征工程。例如,针对缺失值,如果采用决策树模型则可以不进行处理,因为决策树模型本身具有对缺失值进行处理的机制。特征工程包括一下内容:下面以决策树模型为例,进行特征工程的处理2.特征构造人工地对单个或者多个原始特征进行处理,构造出具有可解释性的新的特征。2.1 ...原创 2020-03-27 22:53:28 · 140 阅读 · 0 评论 -
Task2 数据分析EDA整理笔记
1.概念EDA(Exploratory Data Analysis)通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。有利于发现数据的特性和关联性,帮助后续的特征构建。2.步骤2.1要用到的一些库numpy: 数学函数库;pandas: 基于numpy的一种工具,提供了高效操作大型数据集需要的工具;scipy: 可以处理插值、积分、优化、图像处理、常微...原创 2020-03-23 16:51:07 · 200 阅读 · 0 评论