【大数据分析】Spark SQL查询：使用SQL命令

sword_csdn

已于 2022-08-11 12:40:35 修改

阅读量2.8k

点赞数

分类专栏： Spark 文章标签： spark 数据分析 sql

于 2020-04-21 21:56:05 首次发布

本文链接：https://blog.csdn.net/sword_csdn/article/details/105487802

版权

本文介绍了如何在Spark中使用SQL，特别是Spark SQL。通过创建DataFrame并注册为临时或永久表，可以使用SQL查询数据。Spark支持SQL和HQL，推荐使用HQL，因为它提供更丰富的功能。SparkSession的catalog接口用于管理表目录，可以配置连接远程Hive metastore。此外，Spark还提供Thrift服务器，允许通过JDBC/ODBC远程执行SQL查询。

摘要由CSDN通过智能技术生成

对于使用关系型数据库或分布式数据库的用户可能更容易和更自然地使用SQL，比如Hive。在Spark SQL编写SQL命令时，它们将被转换为DataFrame上的操作。通过连接到Spark的Thrift服务器，它们可以通过标准的JDBC或ODBC协议从应用服务器连接到Spark。Spark支持两种SQL方言：SQL和HQL。Spark社区推荐的是HQL，因为HQL具有更丰富的功能。要使用HQL，需要使用Hive支持的Spark发行版。除了带来更强大的SQL解析器之外，Hive支持可让用户访问现有的Hive表，并使用现有的社区构建的Hive UDF。通过在构建SparkSession时在Builder对象上调用enableHiveSupport()，可以在Spark上启动Hive功能。

val spark = SparkSession.builder().enableHiveSupport().getOrCreate()

1、表目录和Hive metadata

大多数表SQL操作都是以名称引用的。当使用Spark SQL来执行SQL查询时，可以通过将DataFrame注册为表来引用DataFrame。当这样做时，Spark将表定义存储在表目录中。对于不支持Hive的Spark，表目录实现为简单的内存映射，这意味着表信息存在于驱动程序的内存中，并且随着Spark会话的消失而消失。另外，Hive支持的SparkSession使用Hive metastore来实现表目录。Hive metastore是一个持久性数据库，所以即使会话消失了，DataFrame定义仍然可用。

（1）注册临时表

不管是不是Hive支持的Spark版本，都可以使用createOrRepl

最低0.47元/天解锁文章

sword_csdn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【大数据分析】Spark SQL查询：使用SQL命令

对于使用关系型数据库或分布式数据库的用户可能更容易和更自然地使用SQL，比如Hive。在Spark SQL编写SQL命令时，它们将被转换为DataFrame上的操作。通过连接到Spark的Thrift服务器，它们可以通过标准的JDBC或ODBC协议从应用服务器连接到Spark。Spark支持两种SQL方言：SQL和HQL。Spark社区推荐的是HQL，因为HQL具有更丰富的功能。要使用HQL，......
复制链接

扫一扫

专栏目录