自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 2021-04-19

特征工程用于对特征进行进一步分析,并对数据进行处理常见特征工程包括:异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;特征归一化/标准化:标准化(转换为标准正态分布);归一化(抓换到 [0,1] 区间);针对幂律分布,可以采用公式:数据分桶:等频分桶;等距分桶;Best-KS 分桶(类似利用基尼指数进行二分类);卡方分桶;缺失值处理:不处理(针对类似 XGBoost 等树模型);删除(缺失数据太多);插值补全,包括均

2021-04-19 13:17:45 271

原创 2021-04-16

二手车交易价格预测-数据探索性分析EDA定义和目标1.1 定义EDA(数据探索性分析),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。1.2 目标EDA的目标在于熟悉数据集,了解变量间的相互关系以及变量与预测值之间的存在关系,从而引导数据科学从业者进行数据处理以及特征工程的步骤,让接下来的预测问题更加可靠。EDA内容及代码2.1 导入工具库#coding:utf-8#导

2021-04-16 22:41:06 431

原创 2021-04-13

河北省高校数据挖掘比赛任务二一、学习目标本次新人赛以二手车市场为背景,要求选手预测二手汽车的交易价格,这是一个典型的回归问题。其中包括数据科学库、通用流程和baseline方案学习三部分。...

2021-04-13 23:05:45 92

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除