SparkSQL数据源之加载Parquet文件

最新推荐文章于 2024-06-01 08:58:34 发布

ITBOY_ITBOX

最新推荐文章于 2024-06-01 08:58:34 发布

阅读量375

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/m0_37294838/article/details/90213302

版权

Spark 专栏收录该内容

49 篇文章 0 订阅

订阅专栏

Parquet是一种流行的列式存储格式，可以高效地存储具有嵌套字段的记录。Parquet格式经常在Hadoop生态圈中被使用，它也支持Spark SQL的全部数据类型。Spark SQL 提供了直接读取和存储 Parquet 格式文件的方法。

importing spark.implicits._
import spark.implicits._

val peopleDF = spark.read.json("examples/src/main/resources/people.json")
peopleDF.write.parquet("hdfs://hadoop102:9000/people.parquet")
val parquetFileDF = spark.read.parquet("hdfs:// hadoop102:9000/people.parquet")
parquetFileDF.createOrReplaceTempView("parquetFile")
val namesDF = spark.sql("SELECT name FROM parquetFile WHERE age BETWEEN 13 AND 19")
namesDF.map(attributes => "Name: " + attributes(0)).show()
// +------------+
// |       value|
// +------------+
// |Name: Justin|