pyspark
pyspark的使用方法及注意事项
端坐的小王子
没什么难的,学就是了
展开
-
pyspark总结2——DataFrame
spark的DataFrame与python的DataFrame类似,但是其处理速度远快于无结构的RDD。目录1,创建DataFrame2,查询方法2.1 利用DataFrame API查询2.2 利用SQL查询1,创建DataFrameSpark 2.0 用 SparkSession 代替了SQLContext。各种 Spark contexts,包括:HiveContext, SQLContext, StreamingContext,以及SparkContext 全部合并到了SparkSessi原创 2020-07-10 16:27:50 · 483 阅读 · 0 评论 -
pyspark总结1 —— RDD及其基本操作
本系列主要总结Spark的使用方法,及注意事项。目录1,spark简介2,RDD的转换(transformation)和行动操作(action)2.1,创建RDD2.1 transformation2.2 action1,spark简介Apache Spark是一个开源、强大的的分布式查询和处理引擎,最初由Matei Zaharia在UC Berkeley读博期间开发的[1]。最早的Spark版本于2012年发布,后来被捐赠给Apache SoftwareFoundation,成为Apache的旗舰原创 2020-07-09 20:31:26 · 1427 阅读 · 0 评论