Spark ML包中的几种归一化方法总结

最新推荐文章于 2024-07-16 10:23:12 发布

NeilRon

最新推荐文章于 2024-07-16 10:23:12 发布

阅读量1w

点赞数 4

分类专栏：机器学习/数据挖掘文章标签： spark 数据归一化

本文链接：https://blog.csdn.net/neilron/article/details/75329973

版权

本文总结了Spark ML库中的四种归一化方法：Normalizer（行向量单位范数）、StandardScaler（0均值单位标准差）、MinMaxScaler（特征映射到[0, 1]区间）和MaxAbsScaler（特征变换到[-1, 1]区间）。这些方法适用于不同场景，确保数据的可比性和算法的稳定性。" 113717106,10537176,使用MD5加密实现帆软单点登录密码验证,"['帆软单点登录', '密码加密', '身份验证']

摘要由CSDN通过智能技术生成

org.apache.spark.ml.feature包中包含了4种不同的归一化方法：

Normalizer
StandardScaler
MinMaxScaler
MaxAbsScaler

有时感觉会容易混淆，借助官方文档和实际数据的变换，在这里做一次总结。

原文地址：http://www.neilron.xyz/spark-ml-feature-scaler/

0 数据准备

import org.apache.spark.ml.linalg.Vectors

val dataFrame = spark.createDataFrame(Seq(
  (0, Vectors.dense(1.0, 0.5, -1.0)),
  (1, Vectors.dense(2.0, 1.0, 1.0)),
  (2, Vectors.dense(4.0, 10.0, 2.0))
)).toDF("id", "features")

dataFrame.show

// 原始数据
+---+--------------+
| id|      features|
+---+--------------+
|  0|[1.0,0.5,-1.0]|
|  1| [2.0,1.0,1.0]|
|  2|[4.0,10.0,2.0]|
+---+--------------+

1 Normalizer

Normalizer的作用范围是每一行，使每一个行向量的范数变换为一个单位范数，下面的示例代码都来自

最低0.47元/天解锁文章

NeilRon

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
Spark ML包中的几种归一化方法总结

org.apache.spark.ml.feature包中包含了4种不同的归一化方法：NormalizerStandardScalerMinMaxScalerMaxAbsScaler有时感觉会容易混淆，借助官方文档和实际数据的变换，在这里做一次总结。原文地址：http://www.neilron.xyz/spark-ml-feature-scaler/0 数据准备import org.ap
复制链接

扫一扫

专栏目录