自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 零基础入门数据挖掘 - 二手车交易价格预测 Task5

模型融合 一、融合方式 1.简单加权融合: 回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean) 分类:投票(Voting) 综合:排序融合(Rank averaging),log融合 2.stacking/blending: 构建多层模型,并利用预测结果再拟合预测。 3.boosting/bagging(在xgboost,Adab...

2020-04-04 20:26:43 264

原创 零基础入门数据挖掘 - 二手车交易价格预测 Task4

建模调参 一、学习内容 1.线性回归模型:线性回归对于特征的要求、处理长尾分布、理解线性回归模型 2.模型性能验证:评价函数与目标函数、交叉验证方法、留一验证方法、针对时间序列问题的验证、绘制学习率曲线、绘制验证曲线 3.嵌入式特征选择:Lasso回归、Ridge回归、决策树 4.模型对比:常用线性模型、常用非线性模型(GBDT、XGBoost、LightGBM、决策树) 5.模型调参:贪心调参、...

2020-04-01 11:58:58 190

原创 零基础入门数据挖掘 - 二手车交易价格预测 Task3

特征工程 一.特征工程的目标 对于特征进行进一步分析,并对于数据进行处理,选择合适的特征来为后续的建模过程做铺垫。 二.常见的特征工程方法 异常处理:通过箱型图分析去除异常值、BOX-COX转换、长尾截断 特征归一化/标准化:标准化(服从正态分布)、归一化([0,1]区间)、进行log变换(针对幂律分布) 数据分桶:等频分桶、等距分桶、卡方分桶、Best-KS分桶 缺失值处理:不处理(XGBoo...

2020-03-28 11:37:27 147

原创 零基础入门数据挖掘 - 二手车交易价格预测 Task2

EDA数据探索性分析 1.导入相关的包 import warnings warnings.filterwarnings('ignore') import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import missingno as msno 2.载入数据集 pa...

2020-03-24 17:31:20 182

原创 零基础入门数据挖掘 - 二手车交易价格预测 Task1

第一次写博客哇!!! 零基础入门数据挖掘 - 二手车交易价格预测 简介:赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录, 总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行...

2020-03-21 12:57:22 235

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除