Spark期末复习--SparkSQL

茶冻茶茶

已于 2022-05-29 15:24:43 修改

阅读量1.7k

点赞数 2

分类专栏： pyspark 文章标签： spark big data hadoop

于 2021-12-17 22:25:54 首次发布

本文链接：https://blog.csdn.net/Zsusan7/article/details/122005525

版权

4 篇文章 1 订阅

订阅专栏

前者具有schema元素信息，即DataFrame所表示的二维数据集，包含每列的名称和类型。

Spark SQL是由DataFrame派生出来的，通过三步创建使用

from pyspark.sql import SparkSession
sqlContext = SparkSession.builder.getOrCreate()

from pyspark.sql import Row
saleRows = salesRDD.map(lambda x:Row(
字段名=p[]))

使用sqlContext.createDataFrame创建DataFrame

sale_df = spark.createDataFrame(saleRows)
sale_df.printSchema()

sale_df.registerTempTable('sale_table')

sqlContext.sql('select count(*) counts from sale_table').show()

sqlContext.sql('select * from sale_table').show()  #使用sparkSQL查看
sale_df.show() #用dtaframe查看

有人说，用take可不可以？
在这里插入图片描述可以看到，take是以列表形式返回行取数据

book_df.select('id','name').show()

dir(book_df)

book_df.filter(book_df['rating']>9).show()

book_df.groupBy('publish').count().show()

book_df.select(book_df['id'],book_df['name'],book_df['rating']+1).show()

book_pda = book_df.toPandas()

关注