一、核心代码
val spark = SparkSession
.builder()
.master("local[2]")
.appName("app")
.getOrCreate()
//读取文件
val srcDF = spark
.read
.format("csv")
.option("header","true")
.option("multiLine", true)
.load("file:///C:\\1.csv")
spark.stop()
二、关键参数
format指定读取csv文件。
header是否指定头部行作为schema。
multiLine在单元格中可能因为字数多有换行,但是不指定这个参数,处理数据时可能会报错。指定这个参数为true,可以将换行的单元格合并为1行。
三、写出csv文件
write.csv("/data/csv")
如果字段内有换行的话,最好对字段进行处理。
translate(jsonData,'\r\n','')
//将字段中换行去掉