第三次打卡特征工程

最新推荐文章于 2022-09-14 16:38:35 发布

椰汁黑糯米

最新推荐文章于 2022-09-14 16:38:35 发布

阅读量216

点赞数

本文链接：https://blog.csdn.net/lianqi1020/article/details/105100408

版权

本文探讨特征工程的各个步骤，包括数据理解、数据清洗、特征构造、特征选择和类别不平衡处理。介绍了异常值处理、缺失值填充、特征变换、特征构造方法如时间特征、地理信息处理，以及各种特征选择策略。还提到了代码实战中的箱线图去异常值和特征构造技巧，并强调了特征工程与模型选择的密切关系。

摘要由CSDN通过智能技术生成

特征工程

目标是对于第二步所做的数据分析处理过的数据进行进一步的分析，并进行处理，对数据进行一些图表或者文字总结。
包括数据理解、数据清洗、特征构造，特征选择，类别不平衡。

数据理解
数据层：
定性数据：描述性质
定量数据：描述数量
描述层：进行统计性描述
解读层
结论层
数据解读
目的：提高数据质量，降低算法用错误数据建模的风险
特征变换：定性变量编码、标准化、归一化
缺失值处理：少量不处理，大量删除，也可以补全（均值，中位数，众数）、高维映射（one-hot）、模型预测、最邻近补全、矩阵补全（R-SVC）
异常值处理：简单统计观看，正态分布可使用3a法则，利用模型进行离群点检测（聚类、K邻近等）
其他：删除无效列、更改dtype
特征构造
目的：增强数据表达、添加先验知识
统计量特征
为了方便，可以使用concat函数把测试集和训练集连接一起进行特征构造，可以增加一个字段来判断测试集和训练集。

# 训练集和测试集放在一起，方便构造特征
Train_data['train']=1
Test_data['train']=0
data = pd.concat([Train_data, Test_data], ignore_index=True)

时间特征：节假日等
地理信息：分桶
非线性变换：log、平方、根号
数据分桶：等频等距分桶、best-KS分桶、卡方分桶
特征组合、特种交叉：FM模型

特种选择
目的：平衡预测能力和计算复杂度；降低噪声
过滤式(Filter）：先过滤再学习，relief、方差选择、相关系数、卡方检验、互信息发
包裹式：将最终要使用的学习器性能作为平衡特征子集的评价标准，LVM
嵌入式：结合过滤式和包裹式，LR+L1、决策树
类别不平衡
扩充数据集
尝试使用其他评价指标，AUC等
调整sita值
重采样
合成样本，SMOTE
选择其他模型，如决策树
加权少类别的样本错分代价
其他：把大类分为小类，将小类视为异常点

代码实战

删除异常值：

调用函数使用箱线图删除异常值

特征构造：
将训练集和测试集放在一起构造特征
添加使用时间特征，要注意，数据里有时间出错的格式，所以我们需要 errors=‘coerce’
添加城市信息
构造统计数据，统计总计，最大值最小值方差等数据
数据分桶

可以先输出，给树模型学习

再构造一份特征给 LR NN 之类的模型用
观察特征图，进行取log进行归一化（服从长尾分布）
对于各种特征进行处理，尽量往正态分布进行变换

对于类别进行one-hot编码

特征选择

过滤式：
查看特征和价格的相关性，使用spearman模型
包裹式
嵌入型

Q A

对于决策树模型不推荐对离散特征进行One-hot编码，会产生样本切分不平衡的问题，会影响决策树学习。特征预测能力被认为拆分，导致特征的重要性比实际值低。
如果类别太多的haul，使用catboost。one-hot适应类别比较小的。

服从长尾分布可以取log再进行归一化数据，对于LR模型，决策树效果不明显。
在计算能力的情况下，选择相关系数绝对值大的特征。

特征工程与问题紧密相关，对于非匿名数据，可以依据字段类型进行更多原元化处理方法。特征构造也要和模型联系在一起，对于特征的重要性和处理效果往往也需要通过模型来验证。

异常值处理的函数，出处

# 这里我包装了一个异常值处理的代码，可以随便调用。
def outliers_proc(data, col_name, scale=3):
    """
    用于清洗异常值，默认用 box_plot（scale=3）进行清洗
    :param data: 接收 pandas 数据格式
    :param col_name: pandas 列名
    :param scale: 尺度
    :return:
    """

    def box_plot_outliers(data_ser, box_scale):
        """
        利用箱线图去除异常值
        :param data_ser: 接收 pandas.Series 数据格式
        :param box_scale: 箱线图尺度，
        :return:
        """
        iqr = box_scale * (data_ser.quantile(0.75) - data_ser.quantile(0.25))
        val_low = data_ser.quantile(0.25) - iqr
        val_up = data_ser.quantile(0.75) + iqr
        rule_low = (data_ser < val_low)
        rule_up = (data_ser > val_up)
        return (rule_low, rule_up), (val_low, val_up)

    data_n = data.copy()
    data_series = data_n[col_name]
    rule, value = box_plot_outliers(data_series, box_scale=scale)
    index = np.arange(data_series.shape[0])[rule[0] | rule[1]]
    print("Delete number is: {}".format(len(index)))
    data_n = data_n.drop(index)
    data_n.reset_index(drop=True, inplace=True)
    print("Now column number is: {}".format(data_n.shape[0]))
    index_low = np.arange(data_series.shape[0])[rule[0]]
    outliers = data_series.iloc[index_low]
    print("Description of data less than the lower bound is:")
    print(pd.Series(outliers).describe())
    index_up = np.arange(data_series.shape[0])[rule[1]]
    outliers = data_series.iloc[index_up]
    print("Description of data larger than the upper bound is:")
    print(pd.Series(outliers).describe())
    
    fig, ax = plt.subplots(1, 2, figsize=(10, 7))
    sns.boxplot(y=data[col_name], data=data, palette="Set1", ax=ax[0])
    sns.boxplot(y=data_n[col_name], data=data_n, palette="Set1", ax=ax[1])
    return data_n