对应课件:3.3 SparkSQL中的核心数据结构DataFrame第40.pdf
对应视频:40、agg聚合方法及数据缓存方法cache的讲解.mp4
一、spark.read方法读取文件创建dataframe。
dir(spark.read)查看。spark.read支持多种格式的文件的读取,包括:'csv', 'format', 'jdbc', 'json', 'load', 'option', 'options', 'orc', 'parquet', 'schema', 'table', 'text'
hdfs dfs -mkdir /sql
hdfs dfs -put users.parquet /sql
hdfs dfs -ls /sql
将文件users.parquet上传到创建好的目录下,查看一下。
df = spark.read.parquet('/sql/users.parquet') #读取文件
df.show() #展示样本数据