Spark学习记录：Spark SQL编程(1)

loar_

已于 2022-05-20 01:32:45 修改

阅读量535

点赞数 1

分类专栏： Spark学习记录文章标签： spark 学习 sql python 大数据

于 2022-05-19 17:50:59 首次发布

本文链接：https://blog.csdn.net/loar_/article/details/124854573

版权

本文介绍了Spark SQL的基础概念，包括DataFrame数据模型的理解，以及如何通过SparkSession进行数据处理。内容涵盖SparkSession的创建，DataFrame的数据源转换，保存文件，以及使用SQL语句进行数据操作。博主分享了个人学习Spark SQL的心得，适合初学者参考。

摘要由CSDN通过智能技术生成

一、Spark SQL的理解。

Spark SQL模块就是利用SQL语言，使用Spark框架，实现对结构化数据的处理。
Spark SQL提供了一个叫DataFrame的数据模型（即带有Schema信息的RDD）。怎么理解这个DataFrame，就是一个个“有名有姓”，“有定义”的RDD的集合。本身RDD的数据并没有定义，DataFrame带有的Schema信息赋予了RDD中的数据特定的含义。
RDD与DataFrame和Pandas模块中的series与DataFrame关系很相似，可以借鉴理解。

二、Spark SQL的编程。

1.创建SparkSession对象。

from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder\	#构建器模式
.config(conf = Sparkconf())\    #设置常用属性
.getOrCreate()					#创建SparkSession对象