尝试读取本地主机文件时出错。_Spark读写压缩文件API使用详解及部署在k8s

最新推荐文章于 2024-02-23 09:56:33 发布

weixin_39999025

最新推荐文章于 2024-02-23 09:56:33 发布

阅读量985

点赞数

文章标签：尝试读取本地主机文件时出错。

本文介绍了在Spark运行于Kubernetes(K8s)环境中，尝试读取远程Hadoop集群上LZO压缩文件时遇到的问题及解决方案。详细步骤包括在Alpine容器中安装LZO依赖，编译Hadoop-LZO本地库，以及在Dockerfile中配置和提交作业时指定所需文件。

摘要由CSDN通过智能技术生成

最近简单的研究了一下Spark on K8s，期间遇到了些许问题，在这里总结一下分享给大家。

环境介绍

hadoop集群：部署在实体机上

spark: k8s上

需求

要实现的功能是使用spark读取远程hadoop集群上的lzo文件

问题

使用Spark官方提供的DockerFile新建容器是没有问题的，但是由于我的测试环境的数据是lzo压缩文件，导致Spark读取数据时会报本地库的错误：

19/09/20 06:02:46 WARN LzoCompressor: java.lang.UnsatisfiedLinkError: Cannot load liblzo2.so.2 (liblzo2.so.2: cannot open shared object file: No such file or directory)!19/09/20 06:02:46 ERROR LzoCodec: Failed to load/initialize native-lzo library19/09/20 06:02:46 ERROR Executor: Exception in task 0.0 in stage 0.0 (TID 0)java.lang.RuntimeException: native-lzo library not available at com.hadoop.compression.lzo.LzopCodec.createDecompressor(LzopCodec.java:104) at com.hadoop.compression.lzo.LzopCodec.createInputStream(LzopCodec.java:89) at com.hadoop.mapreduce.LzoLineRecordReader.initialize

最低0.47元/天解锁文章

weixin_39999025

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
尝试读取本地主机文件时出错。_Spark读写压缩文件API使用详解及部署在k8s

最近简单的研究了一下Spark on K8s，期间遇到了些许问题，在这里总结一下分享给大家。环境介绍hadoop集群：部署在实体机上spark: k8s上需求要实现的功能是使用spark读取远程hadoop集群上的lzo文件问题使用Spark官方提供的DockerFile新建容器是没有问题的，但是由于我的测试环境的数据是lzo压缩文件，导致Spark读取数据时会报本地库的错误：19/09/20 0...
复制链接

扫一扫

尝试读取本地主机文件时出错。_Spark读写压缩文件API使用详解及部署在k8s

“相关推荐”对你有帮助么？