【Spark】解析JSON格式HDFS大文件实践

最新推荐文章于 2022-09-12 21:14:24 发布

太阳下的兰花草

最新推荐文章于 2022-09-12 21:14:24 发布

阅读量705

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/starlywang/article/details/105052455

版权

本文介绍了如何使用Spark从HDFS读取JSON格式的大文件，并通过分区处理成RDD[Row]，再转换为DataFrame以便进行SparkSQL操作。详细步骤包括读取HDFS目录、解析JSON字符串和转换DataFrame。

摘要由CSDN通过智能技术生成

【Spark】解析JSON格式HDFS大文件实践

一、读取HDFS目录并分区

其中validPath为目标文件所在的目录，默认读取目录下全部文件，指定读取到RDD后，分区数为8。
mapPartitions为以某一个分区为单位，对该单位内的每一行做操作。
iter为RDD分区后的每个分区数据的基本操作遍历器，类型为Iterator

val jsonRdd = CommonHelper.getSparkContext().textFile(validPath.toString, 8)
val result = jsonRdd.mapPartitions(iter => parseJsonStr(iter))
//取RDD前十条数据进行打印
result.take(10).foreach {
   
  println
}

二、将HDFS每一行JSON字符串按分区处理成RDD[Row]

创建Row类型对应的Schema

val schema = StructType(List(
  StructField("id", ArrayType(LongType, true), true),
  StructField

最低0.47元/天解锁文章

太阳下的兰花草

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Spark】解析JSON格式HDFS大文件实践

【Spark】解析JSON格式HDFS大文件实践一、读取HDFS目录并分区二、将HDFS每一行JSON字符串按分区处理成RDD[Row]三、将RDD[Row]转换成DataFrame四、总结一、读取HDFS目录并分区其中validPath为目标文件所在的目录，默认读取目录下全部文件，指定读取到RDD后，分区数为8。mapPartitions为以某一个分区为单位，对该单位内的每一行做操作。...
复制链接

扫一扫