spark

最新推荐文章于 2024-07-13 10:06:08 发布

故克里

最新推荐文章于 2024-07-13 10:06:08 发布

阅读量1k

点赞数

分类专栏： Spark 文章标签： spark spark.sql stack 列转行

本文链接：https://blog.csdn.net/tjy_521/article/details/97108231

版权

本文介绍了在Spark SQL中如何利用stack函数将数据列转换为行，以满足在数据不足时补充默认值（如0）的需求。通过一个实际例子展示了如何处理客户近6个月的数据，确保每个月都有记录，缺失月份的金额填充为0。

摘要由CSDN通过智能技术生成

Spark.sql 列转行方法之stack函数用法

一个小需求：在hive表中取每个客户近6个月月底的三个字段：cust_id(客户id)、par_dt(分区时间)、money(金额)，若客户只有近3个月的记录，则需要另外补充数据，金额为0。

因为spark中df只能增加列，而不能增加行记录，故补充默认值需要进行列转行，使用stack内置函数。

好，废话不多说，进行代码Demo演示。

Object TestDev extends LazyLogging{
    def main(args: Array[String]):Unit = {
        
        val spark = SparkSession
        	.builder()
        	.appName("test_Dev")
        	.config("hive.exec.dynamic.partition", "true")
        	.config("hive.exec.dynamic.partition.mode", "nonstrict")
        	.enableHiveSupport()
        	.getOrCreate()
        
        //添加隐式转换
        import spark.implicits._
        
        //使用序列创建一个dataFrame
        val df = spark.sparkContext.parallelize(Seq(
        	("000000001", 10, 20, 30, 40, 50),
            ("000000002",

最低0.47元/天解锁文章

故克里

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
spark

Spark.sql 列转行方法之stack函数用法一个小需求：在hive表中取每个客户近6个月月底的三个字段：cust_id(客户id)、par_dt(分区时间)、money(金额)，若客户只有近3个月的记录，则需要另外补充数据，金额为0。因为spark中df只能增加列，而不能增加行记录，故补充默认值需要进行列转行，使用stack内置函数。好，废话不多说，进行代码Demo演示。Object...
复制链接

扫一扫