Spark -- 数据的特征缩放(Feature scaling)

Spark – 数据的特征缩放(Feature scaling)

特征缩放:有的叫数据归一化,有的叫数据标准化,其实两者有着一些差别,但是大多数时候都是表达的一个意思,它的目的就是使数据缩小范围。具体的介绍请参照维基百科。

spark中就提供了常用的这几种特征缩放方法

  • Normalizer
  • StandardScaler
  • MinMaxScaler
  • MaxAbsScaler
 // 使用 StandardScaler 标准化:  计算公式  X'=(Xi-u)/δ
  val scaler = new StandardScaler()
      .setInputCol("features")  .setOutputCol("scaledfts")
      .setWithStd(true)  .setWithMean(true)

      
// 创建一个 dataframe
    val dataFrame = spark.createDataFrame(Seq(
      (0, Vectors.dense(1.0, 0.5, -1.0)),
      (1, Vectors.dense(2.0, 1.0, 1.0)),
      (2, Vectors.dense(4.0, 10.0, 2.0))
    )).toDF("id", "features")

    dataFrame.printSchema()

  val scalerModel = scaler.fit(dataFrame)
    val scaledData = scalerModel.transform(dataFrame)
    scaledData.show(truncate = false)

spark提供的方法要求输入的数据类型是 Vector格式

root
 |-- id: integer (nullable = false)
 |-- features: vector (nullable = true)
结果查看
+---+--------------+--------------------------------------------------------------+
|id |features      |scaledfts                                                     |
+---+--------------+--------------------------------------------------------------+
|0  |[1.0,0.5,-1.0]|[-0.8728715609439696,-0.6234796863885498,-1.0910894511799618] |
|1  |[2.0,1.0,1.0] |[-0.21821789023599245,-0.5299577334302673,0.21821789023599242]|
|2  |[4.0,10.0,2.0]|[1.0910894511799618,1.1534374198188169,0.8728715609439697]    |
+---+--------------+--------------------------------------------------------------+

很多时候我们拿到的数据的特征不是向量形式。因此在做标准化之前需要将各个特征合并转化成向量。可以有两种方式解决 (本案例以鸢尾花数据集为例)

方法一 spark提供的API
  val iris = spark.read.option("header", true)
      .option("inferSchema", true)
      .csv("F:/DataSource/iris.csv")

  val fts = Array("sepalLength", "sepalWidth", "petalLength", "petalWidth")
    
    // 将多个列合并成向量列的特性转换器
  val amountVectorAssembler: VectorAssembler = new VectorAssembler()
      .setInputCols(fts)
      .setOutputCol("features")
      

    val df1 = amountVectorAssembler.transform(iris)
      .select($"class", $"features")
      
    scaler.fit(df1).transform(df1).show(3 )
方法二 自定义函数
  // 自定义函数合并列并转化为向量
   val vectorUdf = udf((fts: Seq[Double]) => {
     Vectors.dense(fts.toArray)
   })

   val df2 = iris.withColumn("features",
     vectorUdf(array("sepalLength", "sepalWidth", "petalLength", "petalWidth")))
     .select($"class",$"features")

   scaler.fit(df2).transform(df2).show(3)
   
两个方法的结果是一致的
+-----------+-----------------+--------------------+
|      class|         features|           scaledfts|
+-----------+-----------------+--------------------+
|Iris-setosa|[5.1,3.5,1.4,0.2]|[-0.8976738791967...|
|Iris-setosa|[4.9,3.0,1.4,0.2]|[-1.1392004834649...|
|Iris-setosa|[4.7,3.2,1.3,0.2]|[-1.3807270877331...|
+-----------+-----------------+--------------------+

剩下的几种方式就不再一一介绍,用法基本一致,具体的使用方法,适用范围以及计算方法可以参照spark官方提供的文档以及代码;也可以查看相关资料了解更详细的信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值