Windows下Spark-mlib保存模型到本地报空指针解决方案

最新推荐文章于 2022-11-29 15:36:26 发布

纪辰晓

最新推荐文章于 2022-11-29 15:36:26 发布

阅读量4.8k

点赞数

分类专栏： Spark 文章标签： spark 异常 mlib 空指针

本文链接：https://blog.csdn.net/chenxiao_ji/article/details/52330897

版权

在Windows上使用Spark mlib进行机器学习模型训练时遇到一个问题，即尝试将模型保存到本地时遭遇空指针异常。错误主要源于缺少winutils.exe。解决方法包括下载并编译合适的winutils.exe，将其放在指定路径如c:\winutils\bin，并在代码中设置系统属性'hadoop.home.dir'为该路径。

摘要由CSDN通过智能技术生成

一、问题描述

在windows下用Spark mlib跑机器学习模型时，保存模型到本地，出现空指针异常。代码如下：

import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, SVMWithSGD}
import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics
import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.mllib.util.MLUtils;

object SVM {
  def main(args: Array[String]) {
    val conf = new SparkConf().setMaster("local").setAppName("SVM")
    val sc = new SparkContext(conf)
    val data = MLUtils.loadLibSVMFile(sc,"D://spark/sample_libsvm_data.txt");

    val splits = data.randomSplit(Array(0.6,0.4), seed = 11L)
    val training = splits(0).cache()
    val test = splits(1)
    //training.foreach(println)

    val numIterations = 100
    val model = SVMWithSGD.train(training, numIterations)

    //model.clearThreshold();
    println("######## Threshold is : " + model.getThreshold)
    val scoreAndLabels = test.map { point =>
      val score = model.predict(point.features)
      (score, point.label)
    }

    // Get evaluation metrics.
    val metrics = new BinaryClassificationMetrics(scoreAndLabels)
    val auROC = metrics.areaUnderROC()

    println("Area under ROC = " + auROC)

    model.save(sc, "file:///D://spark/SVMTrainingModel")
    //val model = new LogisticRegressionWithLBFGS().setNumClasses(10).run(training)

  }
}

在model.save处报如下错误：

首先以下异常信息：

16/08/26 18:34:58 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
	at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278)
	at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300)
	at org.apache.hadoop.util.Shell.<clinit>(Shell.java:293)
	at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:76)
	at org.apache.hadoop.mapred.FileInputFormat.setInputPaths(FileInputFormat.java:362)
	at org.apache.spark.SparkContext$$anonfun$hadoopFile$1$$anonfun$33.apply(SparkContext.scala:1015)
	at org.apache.spark.SparkContext$$anonfun$hadoopFile$1$$anonfun$33.apply(SparkContext.scala:1015)
	at org.apache.spark.rdd.HadoopRDD$$anonfun$getJobConf$6.apply(HadoopRDD.scala:176)
	at org.apache.spark.rdd.HadoopRDD$$anonfu

最低0.47元/天解锁文章

纪辰晓

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Windows下Spark-mlib保存模型到本地报空指针解决方案

一、问题描述在windows下用Spark mlib跑机器学习模型时，保存模型到本地，出现空指针异常。代码如下：import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, SVMWithSGD}import org.apache.spark.mllib.evaluation.BinaryClas
复制链接

扫一扫

专栏目录