Spark系列--SparkSQL(三)执行SparkSQL查询

最新推荐文章于 2024-07-10 21:40:32 发布

淡淡的倔强

最新推荐文章于 2024-07-10 21:40:32 发布

阅读量9.5k

点赞数 2

分类专栏： Spark

本文链接：https://blog.csdn.net/u012834750/article/details/81164990

版权

本文详细介绍了如何使用SparkSession进行SparkSQL查询，包括在Spark-Shell中执行查询，IDEA中创建SparkSQL程序以及利用Spark SQL CLI进行命令行查询。文章还提到了与Hive的集成和相关依赖的配置。

摘要由CSDN通过智能技术生成

前言

SparkSession

在老的版本中，SparkSQL提供两种SQL查询起始点，一个叫SQLContext，用于Spark自己提供的SQL查询，一个叫HiveContext，用于连接Hive的查询，SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和HiveContext的组合，所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext，所以计算实际上是由sparkContext完成的。

import org.apache.spark.sql.SparkSession  

val spark = SparkSession .builder() .appName("Spark SQL basic example") .config("spark.some.config.option", "some-value") .getOrCreate()  

// For implicit conversions like converting RDDs to DataFrames 
import spark.implicits._