Spark MLlib 特征工程系列—特征转换MaxAbsScaler
MaxAbsScaler
是一种用于缩放数据的工具,通常用于将特征值调整至 [-1, 1] 范围。与 MinMaxScaler
类似,它不改变数据的分布形态,但它专注于保持数据的稀疏性,并且只通过每个特征的最大绝对值来进行缩放。
在本文中,我们将介绍 MaxAbsScaler
的原理、代码示例、实际应用场景,以及它与其他缩放方法的对比。
1. 什么是 MaxAbsScaler?
MaxAbsScaler
是一种线性缩放工具,它将每个特征值除以其在该列中的最大绝对值,使得数据被缩放到 [-1, 1] 之间。这种方法适用于稀疏数据集(如文本数据、图像数据等),因为它不会改变数据的稀疏性。
公式如下:
[ x scaled = x ∣ x max ∣ ] [ x_{\text{scaled}} = \frac{x}{|x_{\text{max}}|} ] [xscaled=∣x