Spark SQL

Hive 原理 把SQL 转化成底层的MapReduce结构

 

RDD只能看见对象看不见对象中的内容; dataframe可以看见内容

SparkSession支持从不同的数据源加载数据 并把数据转换为dataframe支持把dataframe转换成SQL context自身的表然后使用SQL来操作数据

# 创建Sparksession对象
from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()

readwrite

# read
spark.read.format('text').load('people.txt')
# write
df.write.json('people.json')
df.write.format('json').save('people.json')

 通用操作

  • printSchema()
  • select()
  • filter()
  • groupBy()
  • sort()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值