Spark读取CSV文件详解
如题,有一个spark
读取csv
的需求,这会涉及到很多参数。通过对源码(spark version 2.4.5(DataFrameReader.scala:535 line)
)的阅读,现在我总结在这里:
spark
读取csv
的代码如下
val dataFrame: DataFrame = spark.read.format("csv")
.option("header", "true")
.option("encoding", "gbk2312")
.load(path)
这个option
里面的参数,进行介绍:
spark
读取csv
的时候,如果inferSchema
开启,spark
只会输入一行数据,推测它的表结构类型,避免遍历一次所有的数,禁用inferSchema
参数的时候,或者直接指定schema
。
参数 | 解释 |
---|---|
sep |
默认是, 指定单个字符分割字段和值 |
encoding |
默认是uft-8 通过给定的编码类型进行解码 | </