机器学习世界的“特征”

特征——算法眼中的世界

——摘自“机器学习系统设计”一书



1. 特征的类型

特征有三种不同的类型:定量特征、有序特征和分类特征。还可以认为有第四种特征类型,即布尔类型。按信息量由高到低排序依次为:定量特征、有序特征、分类特征和布尔型特征。


2. 运算和统计

特征可以由其可行运算来定义,我们可以将特征的可行计算范围称为特征的统计。这些统计描述了数据的三个不同的方面——集中趋势、离差和形态


2.1 集中趋势

可以使用一下统计中的一个或多个:平均数(均值)、中位数、分位数和众数。众数是唯一可以用于所有数据类型的统计。分位数可以用于有序特征和定量特征。均值智能用于定量特征。


2.2 离差

离差最常见的计算方法是使用方差和标准差来统计,对于度量离差更为简单的统计是极差,即最大值和最小值之间的差。还可以使用第p百分位数来度量小于或高于特定值得实例比例。


2.3 形态

形态统计采用样本中心矩的进行计算。

偏度公式:


峰度公式:



3. 结构化特征

结构化特征可以创建于建模之前,或是作为模型的一部分。对于第一种情况,这一过程可以理解为是从一阶逻辑翻译为命题逻辑的过程。这种方法所存在的问题是,作为已有特征的组合,可能会导致潜在特征数量的激增。另一个重点是结构化特征之间可能存在特征覆盖的逻辑关系。机器学习的一个分支运用了这一方法,特别适用于自然语言处理,称之为归纳逻辑程序设计。


4. 特征变换

变换特征是为了使其变得对模型更为可用,变换可以是对特征所表示的信息进行增加、减少或改变。常见的特征变换是对特征类型的改变。其典型例子就是二值化。另一个例子是将有序特征变为分类特征。


4.1 离散化

有许多方法可以用于发现连续数据的合理分裂,其中包括有监督方法和无监督方法。

4.1.1 无监督离散化

不考虑类别信息(已知X的值而未知Y的值)。分箱(binning/split bin)方法如:等宽、等频、聚类。
(1)等宽/等距:将数值属性的值域[ , ]等分为K个区间,即 (Xmax - X min) / K。前提:数值大概服从均匀分布。
(2)等频/等深/分位数(equi-depth):和等宽类似,但它不是要求每个区间宽度一样,而是要求落在每个区间的对象数目相等。即共有M个点,每个区域含有M / K 个点。
分箱后再作数据平滑处理(smoothing)。

4.1.2 监督离散化

考虑类别信息(已知X 的值和Y 的值)。检验方法如:卡方检验(ChiMerge 慢、Chi-square、Chi2、CAIM、CACC、ameva),信息增益,基尼指数,最短描述长度原则(MDLP,基于熵),WoE等。
(1)最优准则:基于“树结构准则”查找最佳分组 (条件推理树Conditional Inference Trees, initially excludes missing values(NA) to compute the cutpoints, adding them back later in the process for thecalculation of the Information Value)。准则:
     (a)熵;
     (b)目标和分支节点使用Pearson卡方统计量的p值;


(2)单调事件率MonotonicEvent Rate:要求各组的单调事件率呈单调。
(3)约束最优ConstrainedOptimal Binning:基于预定义的约束创建分组。

4.1.3 人工定区间,按照需要而定。


4.2 归一化

求阈值和离散化都会去掉定量特征的尺度,我们可能期望对有序或分类特征增加度量的尺度。在无监督环境中,我们称之为“归一化”(normalization)。

常见的方法有:

(1)min-max标准化(Min-max normalization) (或线性函数归一化)

这种归一化方法比较适用在数值比较集中的情况。但是,如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定,实际使用中可以用经验常量值来替代max和min。而且当有新数据加入时,可能导致max和min的变化,需要重新定义。
在不涉及距离度量、协方差计算、数据不符合正态分布的时候,可以使用这种方法或其他归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。

(2)0-1标准化(0-1 normalization)(或z-score规范化)

在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,这种方法表现更好。

(3)非线性归一化
经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括 log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如log(V, 2)还是log(V, 10)等。


4.3 特征校准(calibration)

对有序特征或分类特征增加尺度信息称为特征校准。这是一种有很多重要应用的有监督特征变换


5. 主成分分析

主成分分析(PCA)是可应用于特征的最为常见的降维形式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值