Spark Sql教程(7）———Parquet文件

最新推荐文章于 2024-08-07 10:16:54 发布

辜智强 -buaa

最新推荐文章于 2024-08-07 10:16:54 发布

阅读量926

点赞数

文章标签： spark sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37719047/article/details/89922393

版权

Spark Sql的默认数据格式是Parquet 文件，Spark SQL能够方便点的进行去读，甚至能够在Parquet文件上执行查询操作。

package sparksql

import org.apache.spark.sql.SparkSession
object SparkSqltest1 {

  def main(args: Array[String]): Unit = {

    //创建sparksession
    val   sparkSession=SparkSession.builder().appName("test1").master("local[*]")getOrCreate()
    import  sparkSession.implicits._
    //读取文件形成dataframe
    val   df=sparkSession.read.json("hdfs://192.168.1.181:9000/json/data.json")
   //写入为parquet文件
    df.select($"name").write.save("hdfs://192.168.1.181:9000/json/data.parquet")
  }
}

parquet文件的特点为：

可以跳过不符合和条件的数据，只读取需要的数据，可以降低IO数量
压缩编码可以进一步降低磁盘空间，用于同一列的数据类型是相同的，所以可以使用更加高效的数据编码形式
只读取需要的列，支持向量运算

辜智强 -buaa

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。