Task3：数据的特征工程

最新推荐文章于 2024-07-25 08:55:54 发布

Bucky.Cheng

最新推荐文章于 2024-07-25 08:55:54 发布

阅读量199

点赞数

文章标签：数据结构深度学习数据挖掘

本文链接：https://blog.csdn.net/Bucky_Cheng/article/details/105149575

版权

Task3：数据的特征工程

一，特征工程目标

对于特征进行进一步分析，并对于数据进行处理，在数据的探索性分析之后（EDA），对数据的特征结构等进行规划处理。
特征工程应该是机器学习、深度学习最重要的一部分，是数据结构科学中最具有概括性的核心，能使数据不再单纯的只是一串串数字或者符号，利用结构和特征赋予数据架构意义的前沿工程。

二，主要步骤

1，导入数据

import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
from operator import itemgetter

%matplotlib inline

path = 'D:/天池竞赛/'
Train_data = pd.read_csv(path+'used_car_train_20200313.csv', sep=' ')
Test_data = pd.read_csv(path+'used_car_testA_20200313.csv', sep=' ')
print(Train_data.shape)
print(Test_data.shape)

输出数据同EDA
数据来源：阿里云

Train_data.head()

在这里插入图片描述

2，删除异常值

def outliers_proc(data, col_name, scale=3):
    """
    用于清洗异常值，默认用 box_plot（scale=3）进行清洗
    :param data: 接收 pandas 数据格式
    :param col_name: pandas 列名
    :param scale: 尺度
    :return:
    """

    def box_plot_outliers(data_ser, box_scale):
        """
        利用箱线图去除异常值
        :param data_ser: 接收 pandas.Series 数据格式
        :param box_scale: 箱线图尺度，
        :return:
        """
        iqr = box_scale * (data_ser.quantile(0.75) - data_ser.quantile(0.25))
        val_low = data_ser.quantile(0.25) - iqr
        val_up = data_ser.quantile(0.75) + iqr
        rule_low = (data_ser < val_low)
        rule_up = (data_ser > val_up)
        return (rule_low, rule_up), (val_low, val_up)

    data_n = data.copy()
    data_series = data_n[col_name]
    rule, value = box_plot_outliers(data_series, box_scale=scale)
    index = np.arange(data_series.shape[0])[rule[0] | rule[1]]
    print("Delete number is: {}".format(len(index)))
    data_n = data_n.drop(index)
    data_n.reset_index(drop=True, inplace=True)
    print("Now column number is: {}".format(data_n.shape[0]))
    index_low = np.arange(data_series.shape[0])[rule[0]]
    outliers = data_series.iloc[index_low]
    print("Description of data less than the lower bound is:")
    print(pd.Series(outliers).describe())
    index_up = np.arange(data_series.shape[0])[rule[1]]
    outliers = data_series.iloc[index_up]
    print("Description of data larger than the upper bound is:")
    print(pd.Series(outliers).describe())
    
    fig, ax = plt.subplots(1, 2, figsize=(10, 7))
    sns.boxplot(y=data[col_name], data=data, palette="Set1", ax=ax[0])
    sns.boxplot(y=data_n[col_name], data=data_n, palette="Set1", ax=ax[1])
    return data_n

这里删除power数据为例：

Train_data = outliers_proc(Train_data, 'power', scale=3)

在这里插入图片描述

3，特征构造

数据分布：
我们可以再构造一份特征给 LR NN 之类的模型用
在这里插入图片描述

4，特征筛选

这次的学习只参考了资料里的过滤式

print(data['power'].corr(data['price'], method='spearman'))
print(data['kilometer'].corr(data['price'], method='spearman'))
print(data['brand_amount'].corr(data['price'], method='spearman'))
print(data['brand_price_average'].corr(data['price'], method='spearman'))
print(data['brand_price_max'].corr(data['price'], method='spearman'))
print(data['brand_price_median'].corr(data['price'], method='spearman'))

（相关性分析）
在这里插入图片描述
或由图中看：

data_numeric = data[['power', 'kilometer', 'brand_amount', 'brand_price_average', 
                     'brand_price_max', 'brand_price_median']]
correlation = data_numeric.corr()

f , ax = plt.subplots(figsize = (7, 7))
plt.title('Correlation of Numeric Features with Price',y=1,size=16)
sns.heatmap(correlation,square = True,  vmax=0.8)

在这里插入图片描述

三，总结

当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征：
特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。
特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。。

作者：城东
链接：https://www.zhihu.com/question/29316149/answer/110159647
来源：知乎

在机器学习以及深度学习与数据挖掘中，经常使用一个模型结构和一串原始数据来得到一些预测分析的结果，例如大数据，人们就是从这些原始数据和预测的结果中去杂取优，或者经过人为目的性的处理得到最符合价值的预测。

Bucky.Cheng

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Task3：数据的特征工程

Task3：数据的特征工程一，特征工程目标对于特征进行进一步分析，并对于数据进行处理，在数据的探索性分析之后（EDA），对数据的特征结构等进行规划处理。特征工程应该是机器学习、深度学习最重要的一部分，是数据结构科学中最具有概括性的核心，能使数据不再单纯的只是一串串数字或者符号，利用结构和特征赋予数据架构意义的前沿工程。二，主要步骤1，导入数据import pandas as pdim...
复制链接

扫一扫