用xshell工具读取parquet文件字段和内容

最新推荐文章于 2024-04-18 16:25:01 发布

VIP文章 mmz99

最新推荐文章于 2024-04-18 16:25:01 发布

阅读量1k

点赞数

分类专栏：大数据文章标签： spark

本文链接：https://blog.csdn.net/mmz99/article/details/107973940

版权

最近工作需要读取parquet文件的内容，因为它列式存储无法直接查看，百度了很多文章都是spark写代码读取，以为很难，实则我都想扇死自己。

前置条件：

Xshell 工具

顺序输入

进入spark-shell窗口

1. spark-shell

2. val sqlContext = new org.apache.spark.sql.SQLContext(sc)

hdfs://cdp是defaultFS，也可以不写，如下:

3. val parquetFile = sqlContext.parquetFile("hdfs://cdp/user/az-user/sparkStreamingKafka2HdfsData/part-00000-ff60a7d3-bf91-4717-bd0b-6731a66b9904-c000.snappy.parquet")

读30行数据

4. parquetFile.take(30).foreach(println)

读表中字段

5.parquetFile.printSchema()

就这。。。。。。

反思了一下自己的百度搜索能力：

最开始我搜的是：“如何直接读取parquet文件/在堡垒机如何将一张表数据导出到本地”
睡了一觉洗了个脑子回来搜的是：“xshell 用spark读取paquet文件” 搜到了

自己那么笨，还嫌世界太难 to me.

mmz99

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
用xshell工具读取parquet文件字段和内容

最近工作需要读取parquet文件的内容，因为它列式存储无法直接查看，百度了很多文章都是spark写代码读取，以为很难，实则我都想扇死自己。前置条件：Xshell 工具顺序输入进入spark-shell窗口1. spark-shell2. val sqlContext = new org.apache.spark.sql.SQLContext(sc)hdfs://cdp是defaultFS，也可以不写，如下:3. val parquetFile = sqlContext.parquetF
复制链接

扫一扫