spark 解析ZIP文件中的JSON数据

这篇博客介绍了如何在Apache Spark中处理ZIP压缩文件的两种方法。方法一是通过`binaryFiles`读取ZIP文件,然后使用`ZipInputStream`解压缩,逐行读取内容。方法二是利用`newAPIHadoopRDD`配合Hadoop的输入格式处理压缩文件。这两个方法都可以有效地加载和解析压缩文件的内容。
摘要由CSDN通过智能技术生成

方法一:
参考资料:https://blog.csdn.net/GCR8949/article/details/80155064

import org.apache.spark.SparkConf
import org.apache.spark.input.PortableDataStream
import org.apache.spark.sql.SparkSession
import java.io.{BufferedReader, InputStreamReader}
import java.util.zip.ZipInputStream
val spark = getLocalSparkSession()

    val binaryRDD = spark.sparkContext.binaryFiles("XXX.zip")
    val dataRDD= binaryRDD.flatMap {
      case (name: String, content: PortableDataStream) => val zis = new ZipInputStream(content.open())
        Stream.continually(zis.getNextEntry)
          .takeWhile(_ != null)
          .flatMap { _ =>
            val br = new BufferedReader(new InputStreamReader(zis))
            Stream.continually(br.readLine()).takeWhile(_ != null)
          }
    }
    dataRDD.take(10).foreach(println)

    spark.read.json(dataRDD).show(100)

方法二:
使用spark.sparkContext.newAPIHadoopRDD
参考资料:https://www.thinbug.com/q/28569788

newAPIHadoopRDD
https://blog.csdn.net/zpf_940810653842/article/details/104815533

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值