机器学习实践之特征工程

特征工程是机器学习任务中非常核心的部分,特征工程质量的好坏直接影响着模型训练结果的好坏。

常见的特征工程可以分为特征抽象特征重要性评估特征衍生特征降维等几个方面。


1.特征抽象


特征抽象是指将原始数据抽象成算法(或模型)可以理解的数据。针对不同的数据类型,主要有如下特征抽象方法:

(1)时间戳。主要是针对具有鲜明时间序列的特征数据,将源数据中的年月日格式(或其他格式)的数据转换成以某一天为基准的数字(如2017-01-01为1)。这样可以将两个日期之间的时间段表示为两个日期数字的差值。

(2)二值类问题。二值类数据较为容易处理,比如说可以将用户性别是男还是女、用户是否购买了某件商品、用户的信用是否良好分别赋值为1和0。

(3)多值有序类问题。多值有序数据往往可以反映特征的轻重缓急程度。如考核数据中成绩特征有不合格、合格、良好、优秀等维度,信用数据中用户信用等级特征有较差、一般、良好、优秀等维度,办公事务中的待办事务特征有一般、加急、特急等维度。针对这类特征数据,可以将其不同维度的数据赋值为0、1、2、3。


2.特征重要性评估


在通过特征抽象得到一组算法(或模型)可以理解的特征数据之后,有时候还需要了解每个特征对模型训练效果的影响程度大小,进而对不同的特征赋予不同的权重,这样能够有效提高模型训练效果。常见的特征重要性评估方法有回归模型系数信息熵。如下所示:

(1)回归模型系数评估法。此种方法主要针对线性模型。首先,对特征数据执行归一化操作,然后根据逻辑回归模型系数的大小评估各特征的重要性大小。

(2)信息熵评估法。信息熵评估法的基础来自信息增益原理,其评估特征重要性的标准是看该特征能为模型带来多少信息,带来的信息越多,则该特征越重要,为其赋予的权重越高。


3.特征衍生


特征衍生是指利用现有的特征进行某种组合,生成新的具有特定含义的特征。新生成的特征对目标列的影响大小可以通过特征重要性评估来获得。

例如,现有一份用户在某电商平台上的购物行为数据,如下表所示:

用户ID

产品ID

购物行为

日期

101

10

0

6月5日

102

11

0

2月3日

103

12

1

7月8日

104

13

0

9月10日

105

14

1

8月15日

任务目标:通过上面的这份数据(1-9月的购物数据),预测在接下来的3个月(10-12月)里用户会购买哪些产品。

为了能够达成既定目标,上面已有数据所具有的特征维度是远远不够的,所以可以通过特征衍生的方式来构造一些重要的衍生特征。


4.特征降维


特征降维是一种从高维度数据中挖掘关键字段信息的技术。在保留原始数据中大部分关键信息的前提下,还达到了降低数据维度、减少数据噪声和计算量的作用,尤其适用于图像识别和文本分析领域。常见的特征降维技术主要有以下几种:

(1)主成分分析。主成分分析(Principal Component Analysis,PCA)通过线性映射投影的方法,将高维的数据映射到了低维空间中,在投影过程中尽可能保证投影维度上的数据方差最大。

(2)线性判别分析。线性判别分析(Linear Discriminant Analysis,LDA)的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果。投影后保证模式样本在新的子空间中有最佳的可分离性,即有最大的类间距离和最小的类内距离。

(3)局部嵌入分析。局部嵌入分析(Locally Linear Embedding,LLE)是一种非线性降维方法,能够保持数据的流形结构。


已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页