自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 2021-04-24

Datawhale 零基础入门数据挖掘-Task5 模型融合 五、模型融合 5.1 模型融合目标 对于多种调参完成的模型进行模型融合。 完成对于多种模型的融合,提交融合结果并打卡。 5.2 内容介绍 模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。 简单加权融合: 回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean); 分类:投票(Voting) 综合:排序融合(Rank averaging),log融合 sta

2021-04-24 23:05:57 188

原创 2021-04-22

Datawhale 零基础入门数据挖掘-Task4 建模调参 四、建模与调参 5.1 学习目标 了解常用的机器学习模型,并掌握机器学习模型的建模与调参流程 完成相应学习打卡任务 5.2 内容介绍 线性回归模型: 线性回归对于特征的要求; 处理长尾分布; 理解线性回归模型; 模型性能验证: 评价函数与目标函数; 交叉验证方法; 留一验证方法; 针对时间序列问题的验证; 绘制学习率曲线; 绘制验证曲线; 嵌入式特征选择: Lasso回归; Ridge回归; 决策树; 模型对比: 常用线

2021-04-22 23:13:54 117

原创 2021-04-19

Datawhale 零基础入门数据挖掘-Task3 特征工程 三、 特征工程目标 3.1 特征工程目标 对于特征进行进一步分析,并对于数据进行处理 完成对于特征工程的分析,并对于数据进行一些图表或者文字总结并打卡。 3.2 内容介绍 常见的特征工程包括: 异常处理: 通过箱线图(或 3-Sigma)分析删除异常值; BOX-COX 转换(处理有偏分布); 长尾截断; 特征归一化/标准化: 标准化(转换为标准正态分布); 归一化(抓换到 [0,1] 区间); 针对幂律分布,可以采用公式

2021-04-19 22:39:56 107

原创 2021-04-16

Datawhale 零基础入门数据挖掘-Task2 数据分析 二、 EDA-数据探索性分析 2.1 EDA目标 EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。 当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。 引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。 完成对于数据的探索性分析,并对于数据进行一些图表或者文字总结并打卡。

2021-04-16 23:03:31 276

原创 2021-04-13

Datawhale 零基础入门数据挖掘-Task1 赛题理解 一、 赛题理解 赛题:零基础入门数据挖掘 - 二手车交易价格预测 1.1 学习目标 理解赛题数据和目标,清楚评分体系。 1.2 了解赛题 - 赛题概况 - 数据概况 - 预测指标 - 分析赛题 1.2.1 赛题概况 比赛要求参赛选手根据给定的数据集,建立模型,二手汽车的交易价格。 赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含39列变量信息,其中24列为匿名变量。为

2021-04-13 21:50:04 119

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除