spark读取csv文件，中文乱码，同一单元格同时出现引号逗号（"，）串列问题，动态构建原有csv首行schema信息

最新推荐文章于 2024-09-05 17:10:06 发布

卡奥斯道

最新推荐文章于 2024-09-05 17:10:06 发布

阅读量2.7k

点赞数

分类专栏： spark 文章标签： spark读取csv文件中文乱码同一单元格同时出现引号逗号（

本文链接：https://blog.csdn.net/kaaosidao/article/details/84099509

版权

spark 专栏收录该内容

33 篇文章 2 订阅

订阅专栏

 /**
      *
      * @param spark
      * @param headerSchema  是否用csv第一行作为schema信息
      * @param code  csv编码格式
      * @param file  csv绝对路径
      * @return
      */
    def readCSV(spark:SparkSession,headerSchema:String,code:String,file:String) ={
        val rddArr:RDD[Array[String]] = spark.sparkContext.hadoopFile(file, classOf[TextInputFormat],
            classOf[LongWritable], classOf[Text]).map(
            pair => new String(pair._2.getBytes, 0, pair._2.getLength, code))
            //处理同一个单元格 同时出现 引号 逗号串列问题 切割
            .map(_.trim.split(",(?=([^\"]*\"[^\"]*\")*[^\"]*$)",-1))
        val fieldArr = rddArr.first()
        //Row.fromSeq(_) 如果只是 map(Row(_)),会导致 spark.createDataFrame(rddRow,schema)错误
        val rddRow = rddArr.filter(!_.reduce(_+_).equals(fieldArr.reduce(_+_))).map(Row.fromSeq(_))
        val schemaList = ArrayBuffer[StructField]()
        if("TRUE".equals(headerSchema)){
            for(i <- 0 until fieldArr.length){
                schemaList.append(StructField(fieldArr(i),DataTypes.StringType))
            }
        }else{
            for(i <- 0 until fieldArr.length){
                schemaList.append(StructField(s"_c$i",DataTypes.StringType))
            }
        }
        val schema = StructType(schemaList)
        spark.createDataFrame(rddRow,schema)
    }