使用spark sql查询hive数据后，如何增加列？如何获取指定的列？

最新推荐文章于 2022-10-24 16:02:39 发布

慢点走

最新推荐文章于 2022-10-24 16:02:39 发布

阅读量2.2k

点赞数 1

分类专栏： spark 文章标签： spark sql hive 增加列获取指定列

本文链接：https://blog.csdn.net/weixin_42845682/article/details/111298113

版权

spark 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

文章目录

如何获取指定的列
如何增加列
- 使用withColumn
- 使用selectExpr

在日常工作中，使用spark sql可以在hive中查询数据并得到一个DataFrame类型的对象。

import org.apache.spark.sql.{DataFrame, SparkSession}

  val spark = SparkSession
          .builder()
          .appName("Spark Hive Example")
          .master("local[*]")  
          //启动hive支持
          .enableHiveSupport()
          .getOrCreate()
val sqlResult: DataFrame = spark.sql("SELECT id, name, age, score FROM test")

根据上面的查询语句，可以判断出 sqlResult 有两列，第一列是id，第二列是name。

如何获取指定的列

只需要id列，其他列都不需要。代码如下：

	sqlResult.select("id")

如何增加列

使用withColumn

利用withColumn函数就能实现对dataframe中列的添加。假设我们计算分数错误，每个人都少加了三分，需要新建一个newScore列，表示正确的分数。
withColumn这个函数中的第二个参数为col类型，且必须是原DataFrame中的某一列。

    sqlResult.withColumn("new_score", col("score") + 3 )

本人测试该方法，不知因为版本还是什么原因，使用该方法并未生效。

并且，这种写法感觉不方便。在sql中，如果需要多加一列，可以如下写：

    select id, name, age, score, score + 3 as new_score from test

那么DataFrame有没有这种写法呢？当然有，如下：

使用selectExpr

根据sql的写法和取某些固定的列的写法，很快可以想到可以这么写：

	sqlResult.select("score + 3 as new_score")

但是很遗憾，这么写不生效，还会报错。
这种情况需要使用selectExpr：

	sqlResult.selectExpr("score + 3 as new_score")

      这时候，就不会报错了，且会多出一列。
      这种方法个人测试过且成功通过，建议使用这种写法，方便。
      但是需要注意的是，这个方法是取出某些列，而不是增加列。所以如果你的代码是这样：

	sqlResult.selectExpr("score + 3 as new_score")

那么id、name、age、score这四个列都不会存在，只存在 new_score这一列。
如果需要增加一列，需要在该方法中把所有列的名称都写上：

		sqlResult.selectExpr( "id", "name", "age", "score", "score + 3 as new_score")

      这样，就有五列。

      同样的，如果需要增加一列，该列值全部为1，代码如下：

		sqlResult.selectExpr( "id", "name", "age", "score", "1 as new_field")

慢点走

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录