Spark SQL及实例

Spark SQL是Apache Spark处理结构化数据的模块,提供SQL和DataFrame API。核心概念是DataFrame,分布式数据集,可视为关系数据库的表。通过SQLContext或HiveContext访问其功能,支持从多种数据源创建DataFrame,如RDD、JSON文件、Hive表等。可以运行SQL查询,创建临时视图,并能方便地在DataFrame和RDD之间转换。
摘要由CSDN通过智能技术生成

什么是Spark SQL

Spark SQL是Apache Spark用于处理结构化数据的模块。Spark SQL允许使用SQL或熟悉的DataFrame API查询Spark程序内的结构化数据。Spark SQL支持多语言编程包括Java、Scala、Python和R,可以根据自身喜好进行选择。本文中所涉及的Spark SQL代码示例均使用python语言。

Spark SQL的核心-DataFrame

DataFrame是一个以命名列(类似于关系表中的字段)组织的分布式数据集。可以把它看成关系数据库中的一张表或R/python中的DataFrame数据结构(在spark 1.3以前,称为schema-RDD,后改为DataFrame)。
DataFrame可以通过多种来源创建:结构化数据文件,hive的表,外部数据库或者RDDs

Spark SQL的使用

Spark SQL所有的功能入口都是SQLContext 类,及其子类。不过要创建一个SQLContext对象,首先需要有一个SparkContext对象,然后再创建SQLContext

from pyspark import SparkContext
from pyspark import SQLContext
sc = SparkContext("local","my_pyspark")
spark = SQLContext(sc)

除了SQLContext之外,你也可以创建HiveContext,HiveContext是SQLContext 的超集。

创建DataFrame

数据来源可以是已有的RDD、或Hive表、或其他数据源

以下是一个从JSON文件创建DataFrame的小例子:

df = spark.read.json("/usr/local/spark/examples/src/main/resources/people.json") #自带的示例文件,可在安装路径下查找
df.show() #展示DataFrame的内容

这里写图片描述

以下是一个从RDD创建DataFrame的小例子:

from pyspark import Row
rdd = sc.parallelize([
        Row(name='Michael',age=29),
        Row(name='Andy', age=30),
        Row(name=
Spark SQL 是 Apache Spark 的一个模块,用于处理结构化数据。它提供了 SQL 和 DataFrame API 的支持,并且可以无缝地整合在 Spark 程序中。使用 Spark SQL,可以执行 SQL 查询,也可以通过 DataFrame API 在 Scala、Java、Python 或 R 语言中进行数据操作。 下面是一个简单的Spark SQL实例,展示了如何使用Spark SQL读取JSON格式的数据文件,并进行简单的查询操作: ```scala import org.apache.spark.sql.SparkSession // 创建SparkSession对象,这是Spark SQL的入口点 val spark = SparkSession.builder() .appName("Spark SQL Basic Example") .master("local[*]") // 本地运行,[*]表示使用所有可用的核心 .getOrCreate() // 加载一个JSON文件作为数据源,这里的路径需要根据实际文件位置来指定 val peopleDF = spark.read.json("路径/to/people.json") // 使用DataFrame API进行查询 peopleDF.select("name", "age").show() // 注册为一个临时表,使用SQL语法进行查询 peopleDF.createOrReplaceTempView("people") valSQL = "SELECT name FROM people WHERE age BETWEEN 13 AND 19" spark.sql(SQL).show() // 停止SparkSession spark.stop() ``` 在这个实例中,我们首先创建了一个SparkSession对象,它是一个面向用户的入口点来操作Spark SQL。然后,我们读取了一个名为`people.json`的文件,这个文件应该包含JSON格式的数据,并且假设它有`name`和`age`字段。接着,我们使用了DataFrame API 来展示`name`和`age`字段,并将数据注册为一个临时表,这样我们就可以使用SQL语句进行查询。最后,执行了一个SQL查询,并显示了结果。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值