Spark学习记录:Spark SQL编程(1)

本文介绍了Spark SQL的基础概念,包括DataFrame数据模型的理解,以及如何通过SparkSession进行数据处理。内容涵盖SparkSession的创建,DataFrame的数据源转换,保存文件,以及使用SQL语句进行数据操作。博主分享了个人学习Spark SQL的心得,适合初学者参考。
摘要由CSDN通过智能技术生成

一、Spark SQL的理解。

Spark SQL模块就是利用SQL语言,使用Spark框架,实现对结构化数据的处理。
Spark SQL提供了一个叫DataFrame的数据模型(即带有Schema信息的RDD)。怎么理解这个DataFrame,就是一个个“有名有姓”,“有定义”的RDD的集合。本身RDD的数据并没有定义,DataFrame带有的Schema信息赋予了RDD中的数据特定的含义。
RDD与DataFrame和Pandas模块中的series与DataFrame关系很相似,可以借鉴理解。

二、Spark SQL的编程。

1.创建SparkSession对象。

from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder\	#构建器模式
.config(conf = Sparkconf())\    #设置常用属性
.getOrCreate()					#创建SparkSession对象

在进入到pyspark中,默认会生成一个SparkSession对象(Spark)可以直接调用,不用再创建

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值