Spark-MLlib 学习入门到掌握-Normalizer规范化归一化[23]

最新推荐文章于 2023-01-17 13:03:52 发布

华阙之梦

最新推荐文章于 2023-01-17 13:03:52 发布

阅读量288

点赞数

文章标签：大数据机器学习人工智能深度学习

本文链接：https://blog.csdn.net/qq_41610493/article/details/107076471

版权

原理：

将某个特征向量（由所有样本某一个特征组成的向量）计算其p-范数，然后对该每个元素除以p-范数。将原始特征Normalizer以后可以使得机器学习算法有更好的表现。当p取1，2，∞的时候分别是以下几种最简单的情形：
1-范数(L1)：║x║1=│x1│+│x2│+…+│xn│
2-范数(L2)：║x║2=（│x1│²+│x2│²+…+│xn│²）然后开根号
∞-范数(L∞)：║x║∞=max（│x1│，│x2│，…，│xn│）

应用场景：

为什么数据需要归一化？以房价预测为案例，房价(y)通常与离市中心距离(x1)、面积(x2)、楼层(x3)有关，设y=ax1+bx2+cx3，那么abc就是我们需要重点解决的参数。但是有个问题，面积一般数值是比较大的，100平甚至更多，而距离一般都是几公里而已，b参数只要一点变化都能对房价产生巨大影响，而a的变化对房价的影响相对就小很多了。显然这会影响最终的准确性，毕竟距离可是个非常大的影响因素。所以, 需要使用特征的归一化, 取值跨度大的特征数据, 我们浓缩一下, 跨度小的括展一下, 使得他们的跨度尽量统一。
归一化就是将所有特征值都等比地缩小到0-1或者-1到1之间的区间内。其目的是为了使特征都在相同的规模中。

  def NormalizerTest(){
    import org.apache.spark.ml.feature.Normalizer
    import org.apache.spark.ml.linalg.Vectors
    val spark: SparkSession = SparkSession.builder().appName("implicits").master("local[2]").getOrCreate()

    val dataFrame = spark.createDataFrame(Seq(
      (0, Vectors.dense(1.0, 0.5, -1.0)),
      (1, Vectors.dense(2.0, 1.0, 1.0)),
      (2, Vectors.dense(4.0, 10.0, 2.0))
    )).toDF("id", "features")

    // Normalize each Vector using $L^1$ norm.
    val normalizer = new Normalizer()
      .setInputCol("features")
      .setOutputCol("normFeatures")
      .setP(1.0)

    val l1NormData = normalizer.transform(dataFrame)
    println("Normalized using L^1 norm")
    l1NormData.show()

    // Normalize each Vector using $L^\infty$ norm.
    val lInfNormData = normalizer.transform(dataFrame, normalizer.p -> Double.PositiveInfinity)
    println("Normalized using L^inf norm")
    lInfNormData.show()
  }

华阙之梦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark-MLlib 学习入门到掌握-Normalizer规范化归一化[23]

一原理：将某个特征向量（由所有样本某一个特征组成的向量）计算其p-范数，然后对该每个元素除以p-范数。将原始特征Normalizer以后可以使得机器学习算法有更好的表现。当p取1，2，∞的时候分别是以下几种最简单的情形：1-范数(L1)：║x║1=│x1│+│x2│+…+│xn│2-范数(L2)：║x║2=（│x1│²+│x2│²+…+│xn│²）然后开根号∞-范数(L∞)：║x║∞=max（│x1│，│x2│，…，│xn│）二应用场景：为什么数据需要归一化？以房价预测为案例，房价(y)通常与离
复制链接

扫一扫