最近工作需要读取parquet文件的内容,因为它列式存储无法直接查看,百度了很多文章都是spark写代码读取,以为很难,实则我都想扇死自己。
前置条件:
Xshell 工具
顺序输入
进入spark-shell窗口
1. spark-shell
2. val sqlContext = new org.apache.spark.sql.SQLContext(sc)
hdfs://cdp是defaultFS,也可以不写,如下:
3. val parquetFile = sqlContext.parquetFile("hdfs://cdp/user/az-user/sparkStreamingKafka2HdfsData/part-00000-ff60a7d3-bf91-4717-bd0b-6731a66b9904-c000.snappy.parquet")
读30行数据
4. parquetFile.take(30).foreach(println)
读表中字段
5.parquetFile.printSchema()
就这。。。。。。
反思了一下自己的百度搜索能力:
最开始我搜的是:“如何直接读取parquet文件/在堡垒机如何将一张表数据导出到本地”
睡了一觉洗了个脑子回来搜的是:“xshell 用spark读取paquet文件” 搜到了
自己那么笨,还嫌世界太难 to me.