Spark学习记录:Spark SQL编程(1)

一、Spark SQL的理解。

Spark SQL模块就是利用SQL语言,使用Spark框架,实现对结构化数据的处理。
Spark SQL提供了一个叫DataFrame的数据模型(即带有Schema信息的RDD)。怎么理解这个DataFrame,就是一个个“有名有姓”,“有定义”的RDD的集合。本身RDD的数据并没有定义,DataFrame带有的Schema信息赋予了RDD中的数据特定的含义。
RDD与DataFrame和Pandas模块中的series与DataFrame关系很相似,可以借鉴理解。

二、Spark SQL的编程。

1.创建SparkSession对象。

from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder\	#构建器模式
.config(conf = Sparkconf())\    #设置常用属性
.getOrCreate()					#创建SparkSession对象

在进入到pyspark中,默认会生成一个SparkSession对象(Spark)可以直接调用,不用再创建

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值