spark -sql 相关

spark sql 的 df 的行转列的api:

输入数据:例如
note id
n1 2,3,4
n2 3,4,5,6
输出数据:
note id
n1 2
n1 3

操作:

  1. sql 操作 -》 使用split进行切割;
val sql = ” select split(id ,',')paersonId from table1 “
val split = session.sqlContext.sql(sql)
  1. api 操作 -》
split.select(functions.explode(split.col("persid"))).toDF(”ID“)

纯sql行转列

select id from 
(
select split(dutyperson , ',') id from infotable 
)
lateral view explode (id) as personId

spark sql 的API函数 和 sql 函数特征:

  • api 例如日期 addMonth() currentDate()
  • sql add_months() current_date()

读取pg中的数据的对应类型解析对应表

使用get类型方法从行里获得数据的时候;
getString(0)
数据从0开始

pgspark
numberlong
varchar2string
datetimestamp

迭代器的坑:

  1. 迭代器通过for(i <- itre)循环以后数据会丢失;

spark submit 任务提交本地运行成功,集群模式一直报空指针或者是网络链接失败等问题:

问题解决: 把代码中的source的配置文件删除以后可以正常运行;

问题分析: 由于spark 由于代码中的配置文件会覆盖,集群配置文件信息,自己代码中的配置文件中的配置信息不正确导致空问题;

如果:出现类似问题然而source中没有配置文件,添加配置文件即可;

问题描述:使用session读取过数据以后再在算子中使用session的时候即使使用广播变量包裹以后依然无法拿到session;
此时会报空指针异常;

jdbc链接库的option配置项key:

 val JDBC_URL = newOption("url")
  val JDBC_TABLE_NAME = newOption("dbtable")
  val JDBC_DRIVER_CLASS = newOption("driver")
  val JDBC_PARTITION_COLUMN = newOption("partitionColumn")
  val JDBC_LOWER_BOUND = newOption("lowerBound")
  val JDBC_UPPER_BOUND = newOption("upperBound")
  val JDBC_NUM_PARTITIONS = newOption("numPartitions")
  val JDBC_BATCH_FETCH_SIZE = newOption("fetchsize")
  val JDBC_TRUNCATE = newOption("truncate")
  val JDBC_CREATE_TABLE_OPTIONS =  newOption("createTableOptions")
  val JDBC_BATCH_INSERT_SIZE = newOption("batchsize")
  val JDBC_TXN_ISOLATION_LEVEL = newOption("isolationLevel")
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值