笔记
文章平均质量分 56
睡不醒的小wu
这个作者很懒,什么都没留下…
展开
-
2021-04-19
特征工程用于对特征进行进一步分析,并对数据进行处理 常见特征工程包括: 异常处理: 通过箱线图(或 3-Sigma)分析删除异常值; BOX-COX 转换(处理有偏分布); 长尾截断; 特征归一化/标准化: 标准化(转换为标准正态分布); 归一化(抓换到 [0,1] 区间); 针对幂律分布,可以采用公式: 数据分桶: 等频分桶; 等距分桶; Best-KS 分桶(类似利用基尼指数进行二分类); 卡方分桶; 缺失值处理: 不处理(针对类似 XGBoost 等树模型); 删除(缺失数据太多); 插值补全,包括均原创 2021-04-19 13:17:45 · 269 阅读 · 0 评论 -
2021-04-16
二手车交易价格预测-数据探索性分析 EDA定义和目标 1.1 定义 EDA(数据探索性分析),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。 1.2 目标 EDA的目标在于熟悉数据集,了解变量间的相互关系以及变量与预测值之间的存在关系,从而引导数据科学从业者进行数据处理以及特征工程的步骤,让接下来的预测问题更加可靠。 EDA内容及代码 2.1 导入工具库 #coding:utf-8 #导原创 2021-04-16 22:41:06 · 430 阅读 · 0 评论 -
2021-04-13
河北省高校数据挖掘比赛任务二 一、学习目标 本次新人赛以二手车市场为背景,要求选手预测二手汽车的交易价格,这是一个典型的回归问题。其中包括数据科学库、通用流程和baseline方案学习三部分。 ...原创 2021-04-13 23:05:45 · 90 阅读 · 0 评论