这里记录一些Spark/Scala编程上的小问题,不定期更新,以便以后查询。
关于objectFile
RDD里面有一个saveAsObjectFile方法,可以用于将对象序列化后存到HDFS上。
SparkContext里有一个objectFile方法,可以将数据反序列化回来。
注释说这还是试验性的存储格式,但是用起来非常方便。使用时需要注意,调用objectFile时必须指定对象类型,否则可能会报错。
例如调用saveAsObjectFile时类型为(String, String, Array[String], Array[String], Array[String]),读取时这样定义:
val data:RDD[(String, String, Array[String], Array[String], Array[String])]=sc.objectFile(path)