Spark MLlib（一）正则化特征

最新推荐文章于 2023-04-12 08:00:00 发布

五道口纳什

最新推荐文章于 2023-04-12 08:00:00 发布

阅读量3.1k

点赞数

分类专栏： Hadoop-Scala-Spark

本文链接：https://blog.csdn.net/lanchunhui/article/details/51035313

版权

Hadoop-Scala-Spark 专栏收录该内容

34 篇文章 2 订阅

订阅专栏

Spark 在其 MLlib 机器学习库中内置了一些函数用于特征的缩放和标准化。

（1）StandardScaler：标准正太变换
（2）Normalizer：特征向量正则化（范数为1， $\frac {x_i}{\|\mathbf x\|}$ ）

pyspark

>>> from pyspark.mllib.feature import Normalizer

验证两种方式（直接使用 numpy 相关函数进行处理，使用 mllib 提供的类）的归一化结果：

>>> import numpy as np
>>> np.__version__
'1.9.2'                         # 注意 numpy 的版本要高于 1.4 才行
>>> np.random.seed(42)
>>> x = np.random.randn(10)

（1）numpy 相关函数

>>> normalized_x_2 = x / np.linalg.norm(x)

（2）使用 MLlib 类

>>> from pyspark.mllib.feature import Normalizer
>>> normalizer = Normalizer()
>>> x = sc.parallelize([x])
>>> normalized_x_mllib = normalizer.transform(x).first().toArray()
                        # toArray：返回 numpy 数组

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

五道口纳什

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark MLlib（一）正则化特征

Spark 在其 MLlib 机器学习库中内置了一些函数用于特征的缩放和标准化。（1）StandardScaler：标准正太变换（2）Normalizer：特征向量正则化（范数为1，xi∥x∥\frac {x_i}{\|\mathbf x\|}）pysparkfrom pyspark.mllib.feature import Normalizernormalizer = Normalizer
复制链接

扫一扫