数据挖掘实战（三）：特征工程-二手车交易价格预测

最新推荐文章于 2023-04-28 11:30:25 发布

广慕君

最新推荐文章于 2023-04-28 11:30:25 发布

阅读量875

点赞数

分类专栏： # 天池赛-二手车交易价格预测文章标签：大数据 python 机器学习

本文链接：https://blog.csdn.net/qq_37054356/article/details/105103566

版权

基本介绍

重要性
调参效果有限，特征工程的好坏决定最终的排名和成绩
目的
将数据转换为能更好地表示潜在问题的特征

内容介绍（精华）

说明：以下内容中，加粗的部分为实战中使用到的方法，有具体的实现代码，剩余的相关处理技术后续再补充上。

常见的特征工程包括：

异常处理：
- 通过箱线图（或3-Sigma）分析删除异常值
- BOX-COX转换（处理有偏分布）
- 长尾截断
特征归一化/标准化：
- 标准化（转换为标准正态分布）
- 归一化（转换到[0, 1]区间）
- 针对幂律分布，可以采用公式： $\log \left(\frac{1+x}{1+m e \operatorname{dian}}\right)$
数据分桶：
- 等频分桶
- 等距分桶
- Best-KS分桶（类似利用基尼指数进行二分类）
- 卡方分桶
缺失值处理：
- 不处理（针对类似XGBoost等树模型）
- 删除（特征缺失的数据太多，可以考虑删除）
- 插值补全，包括均值/中位数/众数/建模预测/多重插补/压缩感知补全/矩阵补全等
- 分箱，缺失值一个箱
特征构造：
- 构造统计量特征，报告计数，求和，比例，标准差等
- 时间特征，包括相对时间和绝对时间，节假日，双休日等
- 地理信息，包括分箱，分布编码等方法
- 非线性变换，包括log/平方/根号等
- 特征组合，特征交叉
- 仁者见仁，智者见智
特征筛选
- 过滤式（filter）：先对数据进行特征选择，然后再训练学习器，常见的方法有Relief/方差选择法/相关系数法/卡方检验法/互信息法
- 包裹式（wrapper）：直接把最终将要使用的学习器的性能作为特征子集的评价准则，常见方法有LVM（Las Vegas Wrapper）
- 嵌入式（embedding）：结果过滤式和包裹式，学习器训练过程中自动进行了特征选择，常见的有lasso回归
降维
- PCA/LDA/ICA

代码示例

导入数据

import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

Train_data = pd.read_csv('used_car_train_20200313.csv', sep=' ')
Test_data = pd.read_csv('used_car_testA_20200313.csv', sep=' ')
print(Train_data.shape)
print(Test_data.shape)

删除异常值

下面为利用箱线图剔除异常值的函数

def outliers_proc(data, col_name, scale=3):
    """
    用于清洗异常值，默认用 box_plot（scale=3）进行清洗
    :param data: 接收 pandas 数据格式
    :param col_name: pandas 列名
    :param scale: 尺度
    :return:
    """

    def box_plot_outliers(data_ser, box_scale):
        """
        利用箱线图去除异常值
        :param data_ser: 接收 pandas.Series 数据格式
        :param box_scale: 箱线图尺度，
        :return:
        """
        iqr = box_scale * (data_ser.quantile(0.75) - data_ser.quantile(0.25))
        val_low = data_ser.quantile(0.25) - iqr
        val_up = data_ser.quantile(0.75) + iqr
        rule_low = (data_ser < val_low)
        rule_up = (data_ser > val_up)
        return (rule_low, rule_up), (val_low, val_up)

    data_n = data.copy()
    data_series = data_n[col_name]
    rule, value = box_plot_outliers(data_series, box_scale=scale)
    index = np.arange(data_series.shape[0])[rule[0] | rule[1]]
    print(

最低0.47元/天解锁文章

广慕君

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘实战（三）：特征工程-二手车交易价格预测

基本介绍重要性调参效果有限，特征工程的好坏决定最终的排名和成绩目的将数据转换为能更好地表示潜在问题的特征内容介绍（精华）说明：以下内容中，加粗的部分为实战中使用到的方法，有具体的实现代码，剩余的相关处理技术后续再补充上。常见的特征工程包括：异常处理：通过箱线图（或3-Sigma）分析删除异常值BOX-COX转换（处理有偏分布）长尾截断特征归一化/标准化：标准...
复制链接

扫一扫

专栏目录