前言:本文主要介绍Spark中结构化API的使用。
一、数据源
Read API的结构:
DataFrameReader.format(文件类型).option(属性,值).schema(自定义的模式).load(文件路径)
format、schema、一系列option选项,每一步转换都会返回一个DataFrameReader。
例如:
spark.read.format("csv")
.option("headr",true)
.option("mode",FAILFAST)
.option("inferSchema",true)
.load("D:/data/spark-data.csv")
读取模式:通过 option("mode",值)设置
- permissive:当遇到错误格式的记录时,将所有字段设置为null并将所有错误格式的记录放在名为_corrupt_record字符串列中
- dropMalformed:删除包含错误格式记录的行
- failFast:遇到错误格式记录后立即返回失败
Write API:
DataFrameWriter.format(文件格式)
.option(属性,值)