使用spark sql查询hive数据后,如何增加列?如何获取指定的列?

      在日常工作中,使用spark sql可以在hive中查询数据并得到一个DataFrame类型的对象。

import org.apache.spark.sql.{DataFrame, SparkSession}

  val spark = SparkSession
          .builder()
          .appName("Spark Hive Example")
          .master("local[*]")  
          //启动hive支持
          .enableHiveSupport()
          .getOrCreate()
val sqlResult: DataFrame = spark.sql("SELECT id, name, age, score FROM test")

      根据上面的查询语句,可以判断出 sqlResult 有两列,第一列是id,第二列是name。

如何获取指定的列

      只需要id列,其他列都不需要。代码如下:

	sqlResult.select("id")

如何增加列

使用withColumn

      利用withColumn函数就能实现对dataframe中列的添加。假设我们计算分数错误,每个人都少加了三分,需要新建一个newScore列,表示正确的分数。
      withColumn这个函数中的第二个参数为col类型,且必须是原DataFrame中的某一列。

    sqlResult.withColumn("new_score", col("score") + 3 )

      本人测试该方法,不知因为版本还是什么原因,使用该方法并未生效。

      并且,这种写法感觉不方便。在sql中,如果需要多加一列,可以如下写:

    select id, name, age, score, score + 3 as new_score from test

      那么DataFrame有没有这种写法呢?当然有,如下:

使用selectExpr

      根据sql的写法 和 取某些固定的列的写法,很快可以想到可以这么写:

	sqlResult.select("score + 3 as new_score")

      但是很遗憾,这么写不生效,还会报错。
      这种情况需要使用selectExpr:

	sqlResult.selectExpr("score + 3 as new_score")

      这时候,就不会报错了,且会多出一列。
      这种方法个人测试过且成功通过,建议使用这种写法,方便。
      但是需要注意的是,这个方法是取出某些列,而不是增加列。所以如果你的代码是这样:

	sqlResult.selectExpr("score + 3 as new_score")

      那么id、name、age、score这四个列都不会存在,只存在 new_score这一列。
      如果需要增加一列,需要在该方法中把所有列的名称都写上:

		sqlResult.selectExpr( "id", "name", "age", "score", "score + 3 as new_score")

      这样,就有五列。
      
      同样的,如果需要增加一列,该列值全部为1,代码如下:

		sqlResult.selectExpr( "id", "name", "age", "score", "1 as new_field")

      

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值