PySpark数据分析基础:pyspark.sql.SparkSession类方法详解及操作+代码展示
SparkSQL是用于结构化数据处理的Spark模块。它提供了一种称为DataFrame的编程抽象,是由SchemaRDD发展而来。不同于SchemaRDD直接继承RDD,DataFrame自己实现了RDD的绝大多数功能。SparkSQL增加了DataFrame(即带有Schema信息的RDD),使用户可以在SparkSQL中执行SQL语句,数据既可以来自RDD,也可以是Hive、HDFS、Cassandra等外部数据源,还可以是JSON格式的数据。PySpark数据分析基础。...
复制链接