主要翻译自 官网 pyspark 2.3.1 文档
https://spark.apache.org/docs/2.3.1/api/python/pyspark.html#pyspark.RDD
一 pyspark.RDD 保存hdfs文件
①saveAsHadoopDataset(conf, keyConverter=None, valueConverter=None)
输入RDD[(K,V)]形式数据,使用老的hadoop API接口存储在hdfs上数据;
内容需要被convert转化,默认转化器是 org.apache.spark.api.python.JavaToWritableConverter;
②saveAsHadoopFile(path, outputFormatClass, keyClass=None, valueClass=None, keyConverter=None, valueConverter=None, conf=None, compressionCodecClass=None)
输入RDD[(K,V)]形式数据,使用老的hadoop API接口存储在hdfs上数据;<