不用IDEA读取parquent文件的两种方式

56 篇文章 4 订阅
27 篇文章 0 订阅

1. 命令行用spark-shell读取parquent文件

1.1 命令行输入

spark-shell

1.2 创建sparkSession

import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().appName(“demo”).getOrCreate();

1.3 读取parquent数据

var sessi = spark.read.load("/aaa/bbb/output_pt");
sessi.show(5);
打印parquet数据结构
sessi.printSchema()

其中output是一个文件夹,里面有多个parquent文件,如图所示:
在这里插入图片描述

参考链接:xiaoxiao落木的文章

2. 下载jar包命令行直接读取parquent文件

2.1 下载解析parquent的jar包

parquet-tools-1.6.0rc3-SNAPSHOT.jar

git project仓库地址: 点击访问

2.2 和parquent文件放入同层目录

在这里插入图片描述

2.3 查看内容与结构

查看结构:

java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d part-00004-fbf91864-1d51-45f2-9bc8-7f3b8bdd10e8-c000.snappy.parquet |head -n 40

40是显示前40行

查看内容:

java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar head -n 2 part-00004-fbf91864-1d51-45f2-9bc8-7f3b8bdd10e8-c000.snappy.parquet

2是显示内容的前两行

参考链接:黄瓜炖啤酒鸭 的文章

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值