Spark机器学习API之特征处理

关键字:spark、机器学习、特征处理、特征选择

      Spark机器学习库中包含了两种实现方式:

  • 一种是spark.mllib,这种是基础的API,基于RDDs之上构建,
  • 另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比较方便和灵活。

     Spark机器学习中关于特征处理的API主要包含三个方面:特征提取、特征转换与特征选择。本文通过例子介绍和学习Spark.ml中提供的关于特征处理API中的特征选择(Feature Selectors)部分。

1、特征选择(Feature Selectors)

1.1、VectorSlicer

VectorSlicer用于从原来的特征向量中切割一部分,形成新的特征向量,比如,原来的特征向量长度为10,我们希望切割其中的5~10作为新的特征向量,使用VectorSlicer可以快速实现。

1.2、RFormula

RFormula用于将数据中的字段通过R语言的Model Formulae转换成特征值,输出结果为一个特征向量和Double类型的label。关于R语言Model Formulae的介绍可参考:https://stat.ethz.ch/R-manual/R-devel/library/stats/html/formula.html

1.3、ChiSqSelector

ChiSqSelector用于使用卡方检验来选择特征(降维)。

2、示例代码

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.ml.attribute.{Attribute, AttributeGroup, NumericAttribute}
import org.apache.spark.ml.feature.{ChiSqSelector, RFormula, VectorSlicer}
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.StructType
/**
 * @class TestFeatureSelect
 * @author yyz
 * @date 2021/06/20 18:33
 * */
object TestFeatureSelect {
  def main(args : Array[String]) {
    Logger.getLogger("org").setLevel(Level.OFF)


    val conf = new SparkConf().setMaster("local").setAppName("localTestFeatureSelectors")
    val sc = new SparkContext(conf)

    val sqlContext = new org.apache.spark.sql.SQLContext(sc)
    import sqlContext.implicits._

    println("方法一、VectorSlicer用于从原来的特征向量中切割一部分,形成新的特征向量")
    //方法一、VectorSlicer用于从原来的特征向量中切割一部分,形成新的特征向量,比如,原来的特征向量长度为10,我们希望切割其中的5~10作为新的特征向量,使用VectorSlicer可以快速实现。
    //构造特征数组
    val data = Array(Row(Vectors.dense(-2.0, 2.3, 0.0)))

    //为特征数组设置属性名(字段名),分别为f1 f2 f3
    val defaultAttr = NumericAttribute.defaultAttr
    val attrs = Array("f1", "f2", "f3").map(defaultAttr.withName)
    val attrGroup = new AttributeGroup("userFeatures", attrs.asInstanceOf[Array[Attribute]])

    //构造DataFrame
    val dataRDD = sc.parallelize(data)
    val dataset = sqlContext.createDataFrame(dataRDD, StructType(Array(attrGroup.toStructField())))

    print("原始特征:")
    dataRDD.foreach(println)

    //构造切割器
    var slicer = new VectorSlicer().setInputCol("userFeatures").setOutputCol("features")

    //根据索引号,截取原始特征向量的第1列和第3列
    slicer.setIndices(Array(0,2))
    print("output1: ")
    println(slicer.transform(dataset).select("userFeatures", "features").first())

    //根据字段名,截取原始特征向量的f2和f3
    slicer = new VectorSlicer().setInputCol("userFeatures").setOutputCol("features")
    slicer.setNames(Array("f2","f3"))
    print("output2: ")
    println(slicer.transform(dataset).select("userFeatures", "features").first())

    //索引号和字段名也可以组合使用,截取原始特征向量的第1列和f2
    slicer = new VectorSlicer().setInputCol("userFeatures").setOutputCol("features")
    slicer.setIndices(Array(0)).setNames(Array("f2"))
    print("output3: ")
    println(slicer.transform(dataset).select("userFeatures", "features").first())
    println("")

    println("方法二、RFormula用于将数据中的字段通过R语言的Model Formulae转换成特征值,输出结果为一个特征向量和Double类型的label")
    //方法二、RFormula用于将数据中的字段通过R语言的Model Formulae转换成特征值,输出结果为一个特征向量和Double类型的label。关于R语言Model Formulae的介绍可参考:https://stat.ethz.ch/R-manual/R-devel/library/stats/html/formula.html
    //构造数据集
    val dataset1 = sqlContext.createDataFrame(Seq(
      (7, "US", 18, 1.0),
      (8, "CA", 12, 0.0),
      (9, "NZ", 15, 0.0)
    )).toDF("id", "country", "hour", "clicked")
    dataset1.select("id", "country", "hour", "clicked").show()

    //当需要通过country和hour来预测clicked时候,
    //构造RFormula,指定Formula表达式为clicked ~ country + hour
    val formula = new RFormula().setFormula("clicked ~ country + hour").setFeaturesCol("features").setLabelCol("label")
    //生成特征向量及label
    val output = formula.fit(dataset1).transform(dataset1)
    output.select("id", "country", "hour", "clicked", "features", "label").show()

    println("方法三、ChiSqSelector用于使用卡方检验来选择特征(降维)")
    //方法三、ChiSqSelector用于使用卡方检验来选择特征(降维)
    //构造数据集
    val data11 = Seq(
      (7, Vectors.dense(0.0, 0.0, 18.0, 1.0), 1.0),
      (8, Vectors.dense(0.0, 1.0, 12.0, 0.0), 0.0),
      (9, Vectors.dense(1.0, 0.0, 15.0, 0.1), 0.0)
    )
    val df = sc.parallelize(data11).toDF("id", "features", "clicked")
    df.select("id", "features","clicked").show()

    //使用卡方检验,将原始特征向量(特征数为4)降维(特征数为3)
    val selector = new ChiSqSelector().setNumTopFeatures(3).setFeaturesCol("features").setLabelCol("clicked").setOutputCol("selectedFeatures")

    val result = selector.fit(df).transform(df)
    result.show()
  }

}

3、输出结果

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
方法一、VectorSlicer用于从原来的特征向量中切割一部分,形成新的特征向量
原始特征:[[-2.0,2.3,0.0]]
output1: [[-2.0,2.3,0.0],[-2.0,0.0]]
output2: [[-2.0,2.3,0.0],[2.3,0.0]]
output3: [[-2.0,2.3,0.0],[-2.0,2.3]]

方法二、RFormula用于将数据中的字段通过R语言的Model Formulae转换成特征值,输出结果为一个特征向量和Double类型的label
+---+-------+----+-------+
| id|country|hour|clicked|
+---+-------+----+-------+
|  7|     US|  18|    1.0|
|  8|     CA|  12|    0.0|
|  9|     NZ|  15|    0.0|
+---+-------+----+-------+

+---+-------+----+-------+--------------+-----+
| id|country|hour|clicked|      features|label|
+---+-------+----+-------+--------------+-----+
|  7|     US|  18|    1.0|[0.0,0.0,18.0]|  1.0|
|  8|     CA|  12|    0.0|[1.0,0.0,12.0]|  0.0|
|  9|     NZ|  15|    0.0|[0.0,1.0,15.0]|  0.0|
+---+-------+----+-------+--------------+-----+

方法三、ChiSqSelector用于使用卡方检验来选择特征(降维)
+---+------------------+-------+
| id|          features|clicked|
+---+------------------+-------+
|  7|[0.0,0.0,18.0,1.0]|    1.0|
|  8|[0.0,1.0,12.0,0.0]|    0.0|
|  9|[1.0,0.0,15.0,0.1]|    0.0|
+---+------------------+-------+

+---+------------------+-------+----------------+
| id|          features|clicked|selectedFeatures|
+---+------------------+-------+----------------+
|  7|[0.0,0.0,18.0,1.0]|    1.0|  [0.0,18.0,1.0]|
|  8|[0.0,1.0,12.0,0.0]|    0.0|  [0.0,12.0,0.0]|
|  9|[1.0,0.0,15.0,0.1]|    0.0|  [1.0,15.0,0.1]|
+---+------------------+-------+----------------+


Process finished with exit code 0

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值