【博学谷学习记录】超强总结,用心分享 | SparkSQL基础

 #博学谷IT技术支持#

1 数据结构对比

  • Pandas:DataFrame,二维表,处理单机数据。
  • Spark Core:RDD,处理任何的数据结构,处理大规模的分布式数据。
  • Spark SQL:DataFrame,二维表,处理大规模的分布式数据。

2 Spark SQL对象构建

使用SparkSession创建对象

spark = SparkSession.builder.appName('').master('local[*]').getOrCreate()

3 DataFrame详解

3.1 介绍

一个DataFrame表示一个二维表,存在一行一列描述信息。

  • StructType:整个表结构信息
  • StructField:表单个列信息
  • Row:一行
  • Column:一列

3.2 构建方式

方式一:通过rdd获取

# 1. 创建SparkSession对象
spark = SparkSession.builder.master('local[*]').appName('get_df_01').getOrCreate()

sc = spark.sparkContext

# 2- 构建RDD的数据集
rdd = sc.parallelize(['张三 20', '李四 18', '王五 23'])

# 3. 对数据进行处理操作
# [('张三', '20'), ('李四', '18'), ('王五', '23')]
rdd_map = rdd.map(lambda name_age:(name_age.split()[0],int(name_age.split()[1])))

# 4. 将RDD转换为DF
# 4.1 方案一:

# schema元数据定义方式一:
schema = StructType()\
    .add('name', StringType())\
    .add('age', IntegerType())

# schema元数据定义方式二:
schema = StructType(fields=[
     StructField('name',StringType(),True),
     StructField('age',IntegerType(),False)
])

df = rdd_map.toDF(schema=schema)
df.printSchema()
df.show()

df = rdd_map.toDF(schema='name string,age integer')
df.printSchema()
df.show()

df = rdd_map.toDF(schema=['name','age'])
df.printSchema()
df.show()

方式二:将Pandas的df转为Spark SQL的df

# 1- 创建SparkSession对象
spark = SparkSession.builder.appName('pd_df_spark_df').master('local[*]').getOrCreate()

# 2- 基于pandas 构建一个DF对象
pd_df = pd.DataFrame({
    'id':[1,2,3,4],
    'name': ['张三','李四','王五','赵六'],
    'address':['北京','上海','深圳','广州']
})

# 3- 将pandas df 转换为 spark df
# 字段名可以自动识别到pandas的字段类型, 对于数据类型, 当不设置schema的时候, 会进行自动推断
spark_df = spark.createDataFrame(pd_df,schema='id int,name string,address string')

spark_df.printSchema()
spark_df.show()

方式三:内部初始化

# 1. 创建SparkSession对象
spark = SparkSession.builder.master('local[*]').appName('create_df').getOrCreate()

# 2- 创建DF
df = spark.createDataFrame(
    data=[(1,'张三','北京'),(2,'李四','上海'),(3,'王五','广州'),(4,'赵六','深圳')],
    schema='id int,name string,address string'
)

df.printSchema()
df.show()

方式四:读取外部文件

# 1- 创建SparkSession对象
spark = SparkSession.builder.appName('read_text').master('local[*]').getOrCreate()

# 2- 读取外部文件数据
df = spark.read\
    .format('csv')\
    .option('sep',' ')\
    .option('inferSchema', True)\
    .option('header',True)\
    .option('encoding','utf-8')\
    .load(path='file:///export/data/workspace/ky06_pyspark/_03_SparkSql/data/dept.txt')

# 3- 打印查看内容
df.printSchema()
df.show()

3.3 相关API

SQL方式:

spark.sql("""SQL语句""")

DSL方式:

  •  df.where()
  • df.groupBy()
  • df.select()

4 入门案例

WordCount案例

1. 准备一个文件

hadoop hive hive hadoop sqoop
sqoop kafka hadoop sqoop hive hive
hadoop hadoop hive sqoop kafka kafka
kafka hue kafka hbase hue hadoop hadoop hive
sqoop sqoop kafka hue hue kafka

 2. 基于SQL实现

# 1. 创建SparkSession对象
spark = SparkSession.builder.appName('WordCount_02').master('local[*]').getOrCreate()
# 2- 读取外部文件数据
df = spark.read\
    .format('text')\
    .schema(schema='line string')\
    .load(path='hdfs://node1:8020/spark/wd/input/words.txt')
df.createTempView('t1')
# 3- 执行相关的操作
# SQL方式
df1 = spark.sql("""
    select 
        words,
        count(1) as cnt
    from (select explode(split(line,' ')) as words from t1) as t2
    group by words
""")

df1 = spark.sql("""
    with t2 as (
        select explode(split(line,' ')) as words from t1
    )
    select 
        words,
        count(1) as cnt
    from t2 group by words
""")

df1 = spark.sql("""
    select   
        words,
        count(1) as cnt
    from t1 lateral view explode(split(line,' ')) t2 as words  
    group by words
""")
    
df1.show()

3. 基于DSL实现

# DSL方式
df.select(
    F.explode(F.split('line',' ')).alias('words')
).groupBy('words').count().withColumnRenamed('count','cnt').show()

df.select(
    F.explode(F.split('line', ' ')).alias('words')
).groupBy('words').agg(
    F.count('words').alias('cnt')
).show()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值