Spark Sql教程(7)———Parquet文件

Spark Sql的默认数据格式是Parquet 文件,Spark SQL能够方便点的进行去读,甚至能够在Parquet文件上执行查询操作。

package sparksql

import org.apache.spark.sql.SparkSession
object SparkSqltest1 {

  def main(args: Array[String]): Unit = {

    //创建sparksession
    val   sparkSession=SparkSession.builder().appName("test1").master("local[*]")getOrCreate()
    import  sparkSession.implicits._
    //读取文件形成dataframe
    val   df=sparkSession.read.json("hdfs://192.168.1.181:9000/json/data.json")
   //写入为parquet文件
    df.select($"name").write.save("hdfs://192.168.1.181:9000/json/data.parquet")
  }
}

parquet文件的特点为:

  1. 可以跳过不符合和条件的数据,只读取需要的数据,可以降低IO数量
  2. 压缩编码可以进一步降低磁盘空间,用于同一列的数据类型是相同的,所以可以使用更加高效的数据编码形式
  3. 只读取需要的列,支持向量运算
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值