Spark MLlib 入门学习笔记 - 支持向量机

最新推荐文章于 2024-04-28 23:36:49 发布

hjh00

最新推荐文章于 2024-04-28 23:36:49 发布

阅读量627

点赞数

分类专栏： Spark 文章标签：支持向量机 MLLib spark

本文链接：https://blog.csdn.net/hjh00/article/details/72801444

版权

Spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

支持向量机可用来解决一般线性回归和逻辑回归不好处理的问题，准确性比较好。MLlib中对支持向量机有较好的支持，它的使用方法与逻辑回归类似。

package classify

import org.apache.spark.mllib.classification.SVMWithSGD
import org.apache.spark.mllib.evaluation.MulticlassMetrics
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.mllib.linalg.{Vector, Vectors}
import org.apache.spark.mllib.regression.LabeledPoint

object svm {

  def parseLine(line: String): LabeledPoint = {
    val parts = line.split(" ")
    val vd: Vector = Vectors.dense(parts(1).toDouble, parts(2).toDouble, parts(3).toDouble)
    return LabeledPoint(parts(0).toDouble, vd )
  }

  def main(args: Array[String]){
    val conf = new SparkConf().setMaster(args(0)).setAppName("svm")
    val sc = new SparkContext(conf)
    val data =  sc.textFile(args(1)).map(parseLine(_))

    val splits = data.randomSplit(Array(0.6, 0.4), seed=11L)
    val trainData = splits(0)
    val testData = splits(1)

    val model = SVMWithSGD.train(trainData, 50)

    println(model.weights.size)
    println(model.weights)
    println(model.weights.toArray.filter(_ != 0).size)

    val predictionAndLabel = testData.map(p => (model.predict(p.features), p.label))
    predictionAndLabel.foreach(println)

    val metrics = new MulticlassMetrics(predictionAndLabel)
    val precision = metrics.precision
    println("Precision = " + precision)

  }
}

调用SVMWithSGD.train方法得到训练模型，50为迭代次数。