Spark sql 自定义读取数据源

本文介绍如何在Spark SQL中自定义TextSource数据源,以自动读取带有默认Schema的Text文档。内容包括DefaultSource、TextDatasourceRelation、Utils及TextApp四个组件的实现,以及测试文档的字段说明(ID、name、性别、薪水、奖金)。
摘要由CSDN通过智能技术生成

通常在一个流式计算的主流程里,会用到很多映射数据,比较常见的是Text文档,但是文档读进来之后还要匹配相应的schema,本文通过自定义TextSource数据源,自动读取默认的Schema。
DefaultSource.scala

package com.wxx.bigdata.sql_custome_source

import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.sources.{BaseRelation, RelationProvider, SchemaRelationProvider}
import org.apache.spark.sql.types.StructType

class DefaultSource  extends RelationProvider with SchemaRelationProvider{
  def createRelation(sqlContext: SQLContext,
                              parameters: Map[String, String],
                              schema: StructType) :BaseRelation = {
    val path = parameters.get("path")
    path match {
      case Some(p) => new TextDatasourceRelation(sqlContext, p, schema)
      case _ => throw  new IllegalArgumentException("path is required")
    }
  }

  override def createRelation(sqlContext: SQLContext, parameters: Map[String, String]) :Ba
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值