Spark ML包中的几种归一化方法总结

本文总结了Spark ML库中的四种归一化方法:Normalizer(行向量单位范数)、StandardScaler(0均值单位标准差)、MinMaxScaler(特征映射到[0, 1]区间)和MaxAbsScaler(特征变换到[-1, 1]区间)。这些方法适用于不同场景,确保数据的可比性和算法的稳定性。" 113717106,10537176,使用MD5加密实现帆软单点登录密码验证,"['帆软单点登录', '密码加密', '身份验证']
摘要由CSDN通过智能技术生成

org.apache.spark.ml.feature包中包含了4种不同的归一化方法:

  • Normalizer
  • StandardScaler
  • MinMaxScaler
  • MaxAbsScaler

有时感觉会容易混淆,借助官方文档和实际数据的变换,在这里做一次总结。

原文地址:http://www.neilron.xyz/spark-ml-feature-scaler/

0 数据准备

import org.apache.spark.ml.linalg.Vectors

val dataFrame = spark.createDataFrame(Seq(
  (0, Vectors.dense(1.0, 0.5, -1.0)),
  (1, Vectors.dense(2.0, 1.0, 1.0)),
  (2, Vectors.dense(4.0, 10.0, 2.0))
)).toDF("id", "features")

dataFrame.show

// 原始数据
+---+--------------+
| id|      features|
+---+--------------+
|  0|[1.0,0.5,-1.0]|
|  1| [2.0,1.0,1.0]|
|  2|[4.0,10.0,2.0]|
+---+--------------+

1 Normalizer

Normalizer的作用范围是每一行,使每一个行向量的范数变换为一个单位范数,下面的示例代码都来自

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值