spark -sql 相关

最新推荐文章于 2023-06-04 13:06:06 发布

大卜萝

最新推荐文章于 2023-06-04 13:06:06 发布

阅读量391

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/dusheshusheng/article/details/117700907

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

spark sql 的 df 的行转列的api：

输入数据：例如
note id
n1 2，3，4
n2 3，4，5，6
输出数据：
note id
n1 2
n1 3
…

操作：

sql 操作 -》使用split进行切割；

val sql = ” select split（id ,','）paersonId from table1 “
val split = session.sqlContext.sql(sql)

api 操作 -》

split.select(functions.explode(split.col("persid"))).toDF(”ID“)

纯sql行转列

select id from 
(
select split(dutyperson , ',') id from infotable 
)
lateral view explode (id) as personId

spark sql 的API函数和 sql 函数特征：

api 例如日期 addMonth() currentDate()
sql add_months() current_date()

读取pg中的数据的对应类型解析对应表

使用get类型方法从行里获得数据的时候；
getString（0）
数据从0开始

pg	spark
number	long
varchar2	string
date	timestamp

迭代器的坑：

迭代器通过for（i <- itre）循环以后数据会丢失；

spark submit 任务提交本地运行成功，集群模式一直报空指针或者是网络链接失败等问题：

问题解决：把代码中的source的配置文件删除以后可以正常运行；

问题分析：由于spark 由于代码中的配置文件会覆盖，集群配置文件信息，自己代码中的配置文件中的配置信息不正确导致空问题；

如果：出现类似问题然而source中没有配置文件，添加配置文件即可；

问题描述：使用session读取过数据以后再在算子中使用session的时候即使使用广播变量包裹以后依然无法拿到session；
此时会报空指针异常；

jdbc链接库的option配置项key：

 val JDBC_URL = newOption("url")
  val JDBC_TABLE_NAME = newOption("dbtable")
  val JDBC_DRIVER_CLASS = newOption("driver")
  val JDBC_PARTITION_COLUMN = newOption("partitionColumn")
  val JDBC_LOWER_BOUND = newOption("lowerBound")
  val JDBC_UPPER_BOUND = newOption("upperBound")
  val JDBC_NUM_PARTITIONS = newOption("numPartitions")
  val JDBC_BATCH_FETCH_SIZE = newOption("fetchsize")
  val JDBC_TRUNCATE = newOption("truncate")
  val JDBC_CREATE_TABLE_OPTIONS =  newOption("createTableOptions")
  val JDBC_BATCH_INSERT_SIZE = newOption("batchsize")
  val JDBC_TXN_ISOLATION_LEVEL = newOption("isolationLevel")

大卜萝

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark -sql 相关

spark sql 的 df 的行转列的api：输入数据：例如note idn1 2，3，4n2 3，4，5，6输出数据：note idn1 2n1 3…操作：sql 操作 -》使用split进行切割；val sql = ” select split（id ,','）paersonId from table1 “val split = session.sqlContext.sql(sql)
复制链接

扫一扫