RDD转换为DataFrame的时候报错：java.lang.NumberFormatException: For input string: ““

最新推荐文章于 2024-08-15 23:42:58 发布

RayBreslin

最新推荐文章于 2024-08-15 23:42:58 发布

阅读量3.3k

点赞数

分类专栏： SparkSQL Spark 大数据开发文章标签： RDD DataFrame NumberFormatException

本文链接：https://blog.csdn.net/u010886217/article/details/82918014

版权

大数据开发同时被 3 个专栏收录

204 篇文章 8 订阅

订阅专栏

Spark

68 篇文章 0 订阅

订阅专栏

SparkSQL

16 篇文章 1 订阅

订阅专栏

1.问题描述

RDD转换为DataFrame，运行命令：

    val spark=SparkSession.builder().appName("RDD2DataFrameSpark").master("local[2]").getOrCreate()

    //RDD==>DataFrame
    val rdd= spark.sparkContext.textFile("datas/info.txt")

    // For implicit conversions from RDDs to DataFrames
    import spark.implicits._
    val infoDF=rdd.map( _.split(",")).map(line=>Info(line(0).toInt,line(1),line(2).toInt)).toDF()
    infoDF.show()

报错：

18/10/01 17:11:56 ERROR TaskSetManager: Task 0 in stage 1.0 failed 1 times; aborting job
Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 1.0 failed 1 times, most recent failure: Lost task 0.0 in stage 1.0 (TID 1, localhost, executor driver): java.lang.NumberFormatException: For input string: ""
	at java.lang.NumberFormatException.forInputString(NumberFormatException.java:65)
	at java.lang.Integer.parseInt(Integer.java:592)
	at java.lang.Integer.parseInt(Integer.java:615)
	at scala.collection.immutable.StringLike$class.toInt(StringLike.scala:272)
	at scala.collection.immutable.StringOps.toInt(StringOps.scala:29)
	at _1001MoocSparkSQL.RDD2DataFrameSparkSQL$$anonfun$2.apply(RDD2DataFrame.scala:24)
	at _1001MoocSparkSQL.RDD2DataFrameSparkSQL$$anonfun$2.apply(RDD2DataFrame.scala:24)
	at scala.collection.Iterator$$anon$11.next(Iterator.scala:409)
	at scala.collection.Iterator$$anon$11.next(Iterator.scala:409)
	at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.processNext(Unknown Source)
	at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
	at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$8$$anon$1.hasNext(WholeStageCodegenExec.scala:377)
	at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:231)
	at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:225)
	at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:826)
	at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:826)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
	at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
	at org.apache.spark.scheduler.Task.run(Task.scala:99)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:282)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
	at java.lang.Thread.run(Thread.java:745)