Task3 特征工程

最新推荐文章于 2020-09-20 12:02:03 发布

Colin_DE

最新推荐文章于 2020-09-20 12:02:03 发布

阅读量123

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_41898948/article/details/105167875

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

特征工程

特征工程目标

对于特征进行进一步分析，并对于数据进行处理

内容介绍

常见的特征工程包括：

异常处理：
通过箱线图（或 3-Sigma）分析删除异常值；
BOX-COX 转换（处理有偏分布）；
长尾截断；
特征归一化/标准化：
标准化（转换为标准正态分布）；
归一化（抓换到 [0,1] 区间）；
针对幂律分布，可以采用公式： $\log \left(\frac{1+x}{1+\text {median}}\right)$
数据分桶：
等频分桶；
等距分桶；
Best-KS 分桶（类似利用基尼指数进行二分类）；
卡方分桶；
缺失值处理：
不处理（针对类似 XGBoost 等树模型）；
删除（缺失数据太多）；
插值补全，包括均值/中位数/众数/建模预测/多重插补/压缩感知补全/矩阵补全等；
分箱，缺失值一个箱；
特征构造：
构造统计量特征，报告计数、求和、比例、标准差等；
时间特征，包括相对时间和绝对时间，节假日，双休日等；
地理信息，包括分箱，分布编码等方法；
非线性变换，包括 log/ 平方/ 根号等；
特征组合，特征交叉；
仁者见仁，智者见智
特征筛选
过滤式（filter）：先对数据进行特征选择，然后在训练学习器，常见的方法有 Relief/方差选择发/相关系
数法/卡方检验法/互信息法；
包裹式（wrapper）：直接把最终将要使用的学习器的性能作为特征子集的评价准则，常见方法有
LVM（Las Vegas Wrapper）；
嵌入式（embedding）：结合过滤式和包裹式，学习器训练过程中自动进行了特征选择，常见的有
lasso 回归；
降维
PCA/ LDA/ ICA；
特征选择也是一种降维。

数据预处理

比较常用的包是sklearn.Processing data,主要包括以下操作：
异常值处理
使用箱型图（或小提琴图）发现离群点（off-group points）之后，为了不干扰实验结果，我们通常将离群点处理掉：
在这里插入图片描述

	def outliers_proc(data, col_name, scale=3):
	 """
	 用于清洗异常值，默认用 box_plot（scale=3）进行清洗
	 :param data: 接收 pandas 数据格式
	 :param col_name: pandas 列名
	 :param scale: 尺度
	 :return:
	 """
	 def box_plot_outliers(data_ser, box_scale):
	 """
	 利用箱线图去除异常值
	 :param data_ser: 接收 pandas.Series 数据格式
	 :param box_scale: 箱线图尺度，
	 :return:
	 """
	 iqr = box_scale * (data_ser.quantile(0.75) - data_ser.quantile(0.25))
	 val_low = data_ser.quantile(0.25) - iqr
	 val_up = data_ser.quantile(0.75) + iqr
	 rule_low = (data_ser < val_low)
	 rule_up = (data_ser > val_up)
	 return (rule_low, rule_up), (val_low, val_up)
	 data_n = data.copy()
	 data_series = data_n[col_name]
	 rule, value = box_plot_outliers(data_series, box_scale=scale)
	 index = np.arange(data_series.shape[0])[rule[0] | rule[1]]
	 print("Delete number is: {}".format(len(index)))
	 data_n = data_n.drop(index)
	 data_n.reset_index(drop=True, inplace=True)
	 print("Now column number is: {}".format(data_n.shape[0]))
	 index_low = np.arange(data_series.shape[0])[rule[0]]
	 outliers = data_series.iloc[index_low]
	 print("Description of data less than the lower bound is:")
	 print(pd.Series(outliers).describe())
	 index_up = np.arange(data_series.shape[0])[rule[1]]
	 outliers = data_series.iloc[index_up]
	 print("Description of data larger than the upper bound is:")
	 print(pd.Series(outliers).describe())
	 
	 fig, ax = plt.subplots(1, 2, figsize=(10, 7))
	 sns.boxplot(y=data[col_name], data=data, palette="Set1", ax=ax[0])
	 sns.boxplot(y=data_n[col_name], data=data_n, palette="Set1", ax=ax[1])
	 return data_n

缺失值处理

像IRIS数据集没有缺失值，故对数据集新增一个特征，4个特征均赋值为NaN，表示数据缺失；
用均值、众数、中位数填充；
用正态分布进行填充
sklearn.processing import Imputer 这是sklearn中的处理特征缺失的类；
缺失过多，特征融合或舍弃特征。

特征标准化
在回归任务中，由于不同特征之间量纲不同，所以直接将他们放入函数中作为变量，就不是很准确；或者特征的分布不是那么正态化，所以我们一般将特征进行标准化或者归一化：

标准化(转换为标准正态分布)；
Z-Score(对列向量进行处理)
$x^{\prime}=\frac{x-\bar{x}}{S}$
区间缩放(对列向量进行处理)
$x^{\prime}=\frac{x-M i n}{M a x-M i n}$
归一化(对行向量处理)
$x^{\prime}=\frac{x}{\sqrt{\sum_{i=1}^{N} x_{j}^{2}}}$
针对幂律分布(对行向量处理)
$\log \left(\frac{1+x}{1+\text {median}}\right)$

特征构造及筛选

 相关性分析
print(data['power'].corr(data['price'], method='spearman'))
print(data['kilometer'].corr(data['price'], method='spearman'))
print(data['brand_amount'].corr(data['price'], method='spearman'))
print(data['brand_price_average'].corr(data['price'], method='spearman'))
print(data['brand_price_max'].corr(data['price'], method='spearman'))
print(data['brand_price_median'].corr(data['price'], method='spearman'))
# 当然也可以直接看图
data_numeric = data[['power', 'kilometer', 'brand_amount', 'brand_price_average', 
 'brand_price_max', 'brand_price_median']]
correlation = data_numeric.corr()
f , ax = plt.subplots(figsize = (7, 7))
plt.title('Correlation of Numeric Features with Price',y=1,size=16)
sns.heatmap(correlation,square = True, vmax=0.8)

经验总结

特征工程是比赛中最至关重要的的一块，特别的传统的比赛，大家的模型可能都差不多，调参带来的效果增幅是
非常有限的，但特征工程的好坏往往会决定了最终的排名和成绩。
特征工程的主要目的还是在于将数据转换为能更好地表示潜在问题的特征，从而提高机器学习的性能。比如，异
常值处理是为了去除噪声，填补缺失值可以加入先验知识等。
特征构造也属于特征工程的一部分，其目的是为了增强数据的表达。
有些比赛的特征是匿名特征，这导致我们并不清楚特征相互直接的关联性，这时我们就只有单纯基于特征进行处
理，比如装箱，groupby，agg 等这样一些操作进行一些特征统计，此外还可以对特征进行进一步的 log，exp 等
变换，或者对多个特征进行四则运算（如上面我们算出的使用时长），多项式组合等然后进行筛选。由于特性的
匿名性其实限制了很多对于特征的处理，当然有些时候用 NN 去提取一些特征也会达到意想不到的良好效果。
对于知道特征含义（非匿名）的特征工程，特别是在工业类型比赛中，会基于信号处理，频域提取，丰度，偏度
等构建更为有实际意义的特征，这就是结合背景的特征构建，在推荐系统中也是这样的，各种类型点击率统计，
各时段统计，加用户属性的统计等等，这样一种特征构建往往要深入分析背后的业务逻辑或者说物理原理，从而
才能更好的找到 magic。
当然特征工程其实是和模型结合在一起的，这就是为什么要为 LR NN 做分桶和特征归一化的原因，而对于特征
的处理效果和特征重要性等往往要通过模型来验证。
总的来说，特征工程是一个入门简单，但想精通非常难的一件事。

Colin_DE

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Task3 特征工程

特征工程特征工程目标对于特征进行进一步分析，并对于数据进行处理内容介绍常见的特征工程包括：异常处理：通过箱线图（或 3-Sigma）分析删除异常值；BOX-COX 转换（处理有偏分布）；长尾截断；特征归一化/标准化：标准化（转换为标准正态分布）；归一化（抓换到 [0,1] 区间）；针对幂律分布，可以采用公式：log⁡(1+x1+median)\log \left(\fra...
复制链接

扫一扫

专栏目录