java spark读写hdfs文件_Spark读取HDFS中的Zip文件

本文介绍了如何优化从HDFS中的Zip文件读取HTML并解析到Elasticsearch的过程。通过避免解压缩,直接使用Spark从Zip文件中读取HTML,提高了效率。示例代码展示了Spark读取含多文件的Zip文件,利用Jsoup解析HTML内容并存储为JSON,最后保存到Elasticsearch。
摘要由CSDN通过智能技术生成

1. 任务背景

近日有个项目任务,要求读取压缩在Zip中的百科HTML文件,经分析发现,提供的Zip文件有如下特点(=>指代对应解决方案):

(1) 压缩为分卷文件 => 只需将解压缩在同一目录中的一个分卷zip即可解压缩出整个文件

(2) 压缩文件中又包含不同的两个文件夹,且各包含n个小zip文件,小zip文件中包含目录及对应的HTML文本文件

采用第一方案:依次解压缩各小zip文件,存放在一个目录中,然后上传到HDFS中

存在问题:每个小zip都包含上万个小文件,按照第一方案解压缩,耗费的时间太太太多了

(3) 解析的zip存在多文件的情况

(4) 数据总量共计50W

2. 优化方案

直接上传小zip文件,然后让Spark直接从zip文件中读取HTML文本,再使用jsoup解析,并存储至elasticsearch中。

实现过程中有一处需要注意! => 解析zip会遍历的ZipEntry,会识别文件夹和文件夹下的文件,即文件夹和文件在ZipEntry中被当成同类对象来对待。

例1:本地解析zip压缩文件demo

2b65ef29a5872cc0e4771c25889edd04.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值