01 特征归一化
- 对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内,以消除数据特征之间的量纲处理。
- 线性函数归一化(Min-Max Scaling)对原始数据进行线性变换,使结果映射到[0,1]的范围,实现对原始数据的等比缩放。归一化公式如下:
- 零均值归一化(Z-Score Normalization)将原始数据映射到均值为0、标准差为1的分布上。

在实际应用中,通过梯度下降法求解的模型通常是需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树模型则并不适用,以C4.5为例,决策树在进行节点分裂时主要依据数据集D关于特征x的信息增益比,而信息增益比跟特征是否经过归一化无关。
02 类别型特征
- 序号编码:处理类别间具有大小关系的数据
- 独热编码:处理类别间不具有大小关系的特征。对于类别取值较多的情况下使用独热编码需要注意以下问题,(1)使用稀疏向量来节省空间;(2)配合特征选择来降低维度。
- 二进制编码:首先用序号编码给每个类别赋予一个类别ID,然后将类别ID对应的二进制编码作为结果,本质上利用二进制对ID进行哈希映射,最终得到0/1特征向量,且维数小于独热编码,节省了存储空间。
- 其他编码方式,比如Helmert Contrast、Sum Contrast、Polynomial Contrast、Backward Difference Contrast等。
03 高维组合特征的处理
为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。注意,引入ID类型的特征时,由于用户数量m和物品数量n都可以达到千万量级
本文详细介绍了特征工程在机器学习中的应用,包括特征归一化、类别型特征处理、高维组合特征、组合特征的构建以及文本表示模型如Word2Vec。还探讨了在图像数据不足时的处理策略,如迁移学习和数据扩充。
最低0.47元/天 解锁文章
2079

被折叠的 条评论
为什么被折叠?



