- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 learning pyspark:chapter1.understanding spark
what is Apache Spark? Apache Spark是一个开源的、功能强大的分布式查询和处理引擎。 Spark Jobs and APIs 执行过程:Execution process 对于spark应用,它的驱动进程在master结点上,执行进程分布在worker结点上。 spark job 可以看作式一有向无环图过程 ...
2018-11-10 19:18:31 162
原创 Pysaprk Notes:pyspark sql model
sparksession:使用数据集或DataFrameAPI进行spark编程的入口点。 sparksession可以用来创建DateFrame,将DataFrame当作数据表数据,可以在这个数据表上执行sql语句,也可以缓存数据表,从本地读取文件等。 用下面的方法来创建一个sparksession >>> spark = SparkSession.builder \\...
2018-11-05 16:32:47 534
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人