#博学谷IT技术支持#
1 数据结构对比
- Pandas:DataFrame,二维表,处理单机数据。
- Spark Core:RDD,处理任何的数据结构,处理大规模的分布式数据。
- Spark SQL:DataFrame,二维表,处理大规模的分布式数据。
2 Spark SQL对象构建
使用SparkSession创建对象
spark = SparkSession.builder.appName('').master('local[*]').getOrCreate()
3 DataFrame详解
3.1 介绍
一个DataFrame表示一个二维表,存在一行一列描述信息。
- StructType:整个表结构信息
- StructField:表单个列信息
- Row:一行
- Column:一列
3.2 构建方式
方式一:通过rdd获取
# 1. 创建SparkSession对象
spark = SparkSession.builder.master('local[*]').appName('get_df_01').getOrCreate()
sc = spark.sparkContext
# 2- 构建RDD的数据集
rdd = sc.parallelize(['张三 20', '李四 18', '王五 23'])
# 3. 对数据进行处理操作
# [('张三', '20'), ('李四', '18'), ('王五', '23')]
rdd_map = rdd.map(lambda name_age:(name_age.split()[0],int(name_age.split()[1])))
# 4. 将RDD转换为DF
# 4.1 方案一:
# schema元数据定义方式一:
schema = StructType()\
.add('name', StringType())\
.add('age', IntegerType())
# schema元数据定义方式二:
schema = StructType(fields=[
StructField('name',StringType(),True),
StructField('age',IntegerType(),False)
])
df = rdd_map.toDF(schema=schema)
df.printSchema()
df.show()
df = rdd_map.toDF(schema='name string,age integer')
df.printSchema()
df.show()
df = rdd_map.toDF(schema=['name','age'])
df.printSchema()
df.show()
方式二:将Pandas的df转为Spark SQL的df
# 1- 创建SparkSession对象
spark = SparkSession.builder.appName('pd_df_spark_df').master('local[*]').getOrCreate()
# 2- 基于pandas 构建一个DF对象
pd_df = pd.DataFrame({
'id':[1,2,3,4],
'name': ['张三','李四','王五','赵六'],
'address':['北京','上海','深圳','广州']
})
# 3- 将pandas df 转换为 spark df
# 字段名可以自动识别到pandas的字段类型, 对于数据类型, 当不设置schema的时候, 会进行自动推断
spark_df = spark.createDataFrame(pd_df,schema='id int,name string,address string')
spark_df.printSchema()
spark_df.show()
方式三:内部初始化
# 1. 创建SparkSession对象
spark = SparkSession.builder.master('local[*]').appName('create_df').getOrCreate()
# 2- 创建DF
df = spark.createDataFrame(
data=[(1,'张三','北京'),(2,'李四','上海'),(3,'王五','广州'),(4,'赵六','深圳')],
schema='id int,name string,address string'
)
df.printSchema()
df.show()
方式四:读取外部文件
# 1- 创建SparkSession对象
spark = SparkSession.builder.appName('read_text').master('local[*]').getOrCreate()
# 2- 读取外部文件数据
df = spark.read\
.format('csv')\
.option('sep',' ')\
.option('inferSchema', True)\
.option('header',True)\
.option('encoding','utf-8')\
.load(path='file:///export/data/workspace/ky06_pyspark/_03_SparkSql/data/dept.txt')
# 3- 打印查看内容
df.printSchema()
df.show()
3.3 相关API
SQL方式:
spark.sql("""SQL语句""")
DSL方式:
- df.where()
- df.groupBy()
- df.select()
4 入门案例
WordCount案例
1. 准备一个文件
hadoop hive hive hadoop sqoop
sqoop kafka hadoop sqoop hive hive
hadoop hadoop hive sqoop kafka kafka
kafka hue kafka hbase hue hadoop hadoop hive
sqoop sqoop kafka hue hue kafka
2. 基于SQL实现
# 1. 创建SparkSession对象
spark = SparkSession.builder.appName('WordCount_02').master('local[*]').getOrCreate()
# 2- 读取外部文件数据
df = spark.read\
.format('text')\
.schema(schema='line string')\
.load(path='hdfs://node1:8020/spark/wd/input/words.txt')
df.createTempView('t1')
# 3- 执行相关的操作
# SQL方式
df1 = spark.sql("""
select
words,
count(1) as cnt
from (select explode(split(line,' ')) as words from t1) as t2
group by words
""")
df1 = spark.sql("""
with t2 as (
select explode(split(line,' ')) as words from t1
)
select
words,
count(1) as cnt
from t2 group by words
""")
df1 = spark.sql("""
select
words,
count(1) as cnt
from t1 lateral view explode(split(line,' ')) t2 as words
group by words
""")
df1.show()
3. 基于DSL实现
# DSL方式
df.select(
F.explode(F.split('line',' ')).alias('words')
).groupBy('words').count().withColumnRenamed('count','cnt').show()
df.select(
F.explode(F.split('line', ' ')).alias('words')
).groupBy('words').agg(
F.count('words').alias('cnt')
).show()