Spark 结构化API-DataFram、SparkSQL

前言:本文主要介绍Spark中结构化API的使用。

一、数据源

Read API的结构:

DataFrameReader.format(文件类型).option(属性,值).schema(自定义的模式).load(文件路径)

format、schema、一系列option选项,每一步转换都会返回一个DataFrameReader。

例如:

spark.read.format("csv")
            .option("headr",true)
            .option("mode",FAILFAST)
            .option("inferSchema",true)
            .load("D:/data/spark-data.csv")

读取模式:通过 option("mode",值)设置

  • permissive:当遇到错误格式的记录时,将所有字段设置为null并将所有错误格式的记录放在名为_corrupt_record字符串列中
  • dropMalformed:删除包含错误格式记录的行
  • failFast:遇到错误格式记录后立即返回失败

Write API:

DataFrameWriter.format(文件格式)
                .option(属性,值)
   
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值