Task04 特征工程

最新推荐文章于 2021-03-22 22:07:09 发布

叶锦小兴

最新推荐文章于 2021-03-22 22:07:09 发布

阅读量187

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/qq_33253721/article/details/108220966

版权

数据挖掘专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1 特征工程

1.1 为什么重视特征工程

数据挖掘的二八原则：
• 80% 的精力 => 选取特征
• 20% 的精力 => 模型融合
什么是特征工程？
• 基于数据分析与探索提取潜在有价值的特征
在这里插入图片描述
特征工程有利于我们构建最后的模型

1.2 特征提取与特征组合

（1）如何进行特征提取
• 基于数据分析与探索提取
• 箱型图分析 => 交易量与周几有关 => 最终应得到 7个0-1型特征（是否周一、是否周二 ……… ）
在这里插入图片描述
• 点线图分析 => user_start_level（用户星级）、 user_occupation_id（用户职业）均与is_trade（是否交易）有关 => 虽然 user_start_level有序，但可以继续考虑离散化

离散型特征的重要性：
• 可用于设计规则
• 易于模型拟合，xgboost 、lightgbm 、catboost 等都以决策树为基模型
• 便于理解
• 便于做特征组合
• 在推荐系统等领域很常见
（2）如何进行特征组合
• 简单粗暴的进行加、减、乘、除、log 、exp 等运算，易于生成大量特征，但会出现过拟合问题且不易于解释
• 理解问题背景，开发想象力并做数据分析与探索

以时间序列问题为例，常见的特征类别包括统计量（最大值、小中位数偏度峰等）、排序（各统计量在历史同期的排名） 、分位数（各统计量在历史同期的排名）、分位数（各统计量在历史同期的排名的分位数）等；时间序列规则的周期因子可视为特征组合
以推荐系统为例，常见的特征类别包括用户、商品特征、行为特征（按时段计）等； 可对其中的离散型特征直接做组合

1.3 特征处理——“优胜劣汰”

特征工程通常会提取出大量特征，该如何选择好的子集？
• 劣态：剔除几乎无关的特征，保留大量特征
• 处理自变量间共线性：可通过特征组合；A与B存在共线性，保留 A，构造 A/B
在这里插入图片描述
• 优胜：挑选出良好特征，组成最优特征子集

特征重要性分析方法
1.Mean Variance Test （见 02 .数据分析与探索）
2.SHAP，以一种统一的方法来解释任何机器学习模型的输出
• SHapley Additive exPlanations
• Python包shap
• 解释任意机器学习模型的输出
在这里插入图片描述
可以显示特征的重要程度

• 特征i的SHAP值

F —— 所有特征构成的集合
S —— 𝐹{𝑖}的子集
• SHAP Value为正，表明变量对预测值有促进作用
• SHAP Value为负，表明变量对预测值有抑制作用
• 绝对值越大 => 对预测影响越大
在这里插入图片描述
3.Permutation Importance
• Python包eli5
• 一个特征被处理为随机数后，若模型效果下降明显则认该重要

2 面向资金流入流出预测的特征工程

2.1 工具包载入和数据划分

导入工具包

import pandas as  pd
import numpy as np

import datetime
import shap
import eli5
import seaborn as sns
import matplotlib.pyplot as plt

from mvtpy import mvtest
from wordcloud import WordCloud
from scipy import stats
from eli5.sklearn import PermutationImportance
from sklearn import tree
from sklearn.preprocessing import OneHotEncoder
from sklearn.linear_model import LinearRegression

from typing import *
import warnings 
warnings.filterwarnings('ignore')

（1）劣汰
基于02.数据分析与探索，提取是/否类型的特征
• 是否周一、是否周二……是否周日
• 与节假日相关的特征——是否节假日、是否节假日第一天、是否节假日最后一天等等
• 与月初、月末相关的特征
在这里插入图片描述
提取此类特征的方法：

# 是否是假期
total_balance['is_holiday'] = 0
total_balance.loc[total_balance['date'].isin(get_holiday_set()), 'is_holiday'] = 1
    
# 是否是节假日的第一天
last_day_flag = 0
total_balance['is_firstday_of_holiday'] = 0
for index, row in total_balance.iterrows():
    if last_day_flag == 0 and row['is_holiday'] == 1:
        total_balance.loc[index, 'is_firstday_of_holiday'] = 1
    last_day_flag = row['is_holiday']

首先定义一个空列与列名，默认值为0，然后按照选取条件想相应索引对应的值置位1
利用箱型图观察是/否类型特征的特点
• 可发现一些明显不佳的特征
• is_work_on_sunday，样本量严重不平衡
• is_first_week，0/1取值差异不大

在这里插入图片描述
利用相关性分析是/否类型特征
• 申购总额与is_weekend负相关
• 申购总额与is_work正相关
• 剔除一些弱相关（例如，<0.1）的特征

在这里插入图片描述
考虑到节假日、月初、月末等的特殊性，提取相关距离特征
• 距放假的天数、距上班的天数等
• 距月初天数、距月中天数、距星期日天数等

基于点线图分析距离特征

对距节假日和月初天数等特征做处理，处理距离过远的时间点（天数x>5 => x=10）
• dis_to_holiday方差太大
• dis_from_startofmonth
• dis_from_middileofmonth
在这里插入图片描述
基于相关性分析距离特征
• 申购总额与dis_to_nowork正相关
• 申购总额与dis_from_endofweek正相关
• 申购总额与dis_to_work负相关
• 申购总额与dis_from_work负相关
• 剔除一些弱相关（例如，<0.1）的特征

考虑距波峰、波谷的天数
• 如何确定波峰、波谷？（以星期为周期）
• 申购总额时序图
在这里插入图片描述

在这里插入图片描述
根据时序图得出上图结论，左列为波峰，右列为波谷
添加03.时间序列规则与baseline中的周期因子
• 星期周期因子
• 月份周期因子
• 赎回周期因子也与申购总额相关
剔除相关性低的特征

添加时序特征
• 以星期为周期
• 统计申购总额的均值、中位数、最大值、最小值、偏度等
在这里插入图片描述
观察特征的分布特点
• is_premonth
• is_midmonth
• is_tailmonth
• is_secday_of_month
…

剔除对数据集划分不明显的特征，如’is_gonna_work_tomorrow’,‘is_fourth_week’,‘weekday_onehot_4’
劣汰获得一些相关性较低的特征：

['is_firstday_of_work', 'is_midmonth', 'is_first_week', 'is_lastday_of_workday', 'weekday_onehot_3', 'is_work_on_sunday', 'is_gonna_work_tomorrow', 'is_second_week', 'is_secday_of_month', 'is_worked_yestday', 'weekday_onehot_1', 'is_firstday_of_month', 'weekday_onehot_2', 'weekday_onehot_4', 'weekday_onehot_5', 'weekday_onehot_0', 'weekday_onehot_6', 'is_weekend', 'dis_from_endofweek', 'dis_from_middleofmonth', 'dis_to_nowork', 'dis_from_middleofweek']

使用MVTest挽回一些有依赖性但是不相关的特征

# MVtest Ref: https://github.com/ChuanyuXue/MVTest

l = mvtest.mvtest()

name_list = []
Tn_list = []
p_list = []
for i in [i for i in feature_low_correlation if 'is' in i or 'discret' in i]:
    pair = l.test(feature['total_purchase_amt'], feature[i])
    name_list.append(str(i))
    Tn_list.append(pair['Tn'])
    p_list.append(pair['p-value'][0])
temp = pd.DataFrame([name_list,Tn_list]).T.sort_values(1)
temp[1] = np.abs(temp[1])
feature_saved_from_mv_purchase = list(temp.sort_values(1, ascending=False)[temp[1] > 0.5984][0])

最后剔除复共线特征（存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确）
在这里插入图片描述

（2）优胜
采用Shap方法分析特征重要性，并排序
在这里插入图片描述
采用Permutation Importance方法分析特征重要性，并排序

对不同方法的排序列表前Top K取交集

叶锦小兴

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Task04 特征工程

1 特征工程1.1 为什么重视特征工程数据挖掘的二八原则：• 80% 的精力 => 选取特征• 20% 的精力 => 模型融合什么是特征工程？• 基于数据分析与探索提取潜在有价值的特征特征工程有利于我们构建最后的模型1.2 特征提取与特征组合（1）如何进行特征提取• 基于数据分析与探索提取• 箱型图分析 => 交易量与周几有关 => 最终应得到 7个0-1型特征（是否周一、是否周二 ……… ）• 点线图分析 => user_start_level（
复制链接

扫一扫