1. 命令行用spark-shell读取parquent文件
1.1 命令行输入
spark-shell
1.2 创建sparkSession
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().appName(“demo”).getOrCreate();
1.3 读取parquent数据
var sessi = spark.read.load("/aaa/bbb/output_pt");
sessi.show(5);
打印parquet数据结构
sessi.printSchema()
其中output是一个文件夹,里面有多个parquent文件,如图所示:
参考链接:xiaoxiao落木的文章
2. 下载jar包命令行直接读取parquent文件
2.1 下载解析parquent的jar包
parquet-tools-1.6.0rc3-SNAPSHOT.jar
git project仓库地址: 点击访问
2.2 和parquent文件放入同层目录
2.3 查看内容与结构
查看结构:
java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d part-00004-fbf91864-1d51-45f2-9bc8-7f3b8bdd10e8-c000.snappy.parquet |head -n 40
40是显示前40行
查看内容:
java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar head -n 2 part-00004-fbf91864-1d51-45f2-9bc8-7f3b8bdd10e8-c000.snappy.parquet
2是显示内容的前两行
参考链接:黄瓜炖啤酒鸭 的文章