spark 读取lzo 环境依赖

guitarCC

于 2022-09-26 12:29:58 发布

阅读量1k

点赞数

文章标签： spark hadoop 大数据

本文链接：https://blog.csdn.net/guitarCC/article/details/127051371

版权

问题描述

报错

bug:

22/09/25 23:28:14 INFO GPLNativeCodeLoader: Loaded native gpl library
22/09/25 23:28:14 WARN LzoCompressor: java.lang.NoSuchFieldError: lzoCompressLevelFunc
22/09/25 23:28:14 ERROR LzoCodec: Failed to load/initialize native-lzo library
22/09/25 23:28:14 ERROR Executor: Exception in task 0.0 in stage 1.0 (TID 1)
java.lang.RuntimeException: native-lzo library not available
at com.hadoop.compression.lzo.LzoCodec.getDecompressorType(LzoCodec.java:175)
at org.apache.hadoop.io.compress.CodecPool.getDecompressor(CodecPool.java:176) 在这里插入图片描述

由于lzo压缩本身不属于hadoop体系自带压缩方式以及spark自带的解析方式
所以往往需要额外配置

在大数据集群中所使用压缩完全没有问题的，hadoop以及spark会自己调用lzo存在的目录
进行读取，但是idea 本地环境想要读取lzo文件，就要使本地环境支持lzo依赖

出于开发的便利，需要idea中读取到lzo压缩的数据

参考：http://t.csdn.cn/xIDRa

一共三个文件
在这里插入图片描述

plcompression.dll、lzo2.dll、hadoop-lzo-0.4.21-SNAPSHOT.jar

将gplcompression.dll、lzo2.dll 放到 C:\Windows\System32 目录下

增加依赖【此项可能无作用】

<dependency>
    <groupId>com.hadoop.compression</groupId>
    <artifactId>com.hadoop.compression</artifactId>
    <version>1.0</version>
    <scope>system</scope>
    <systemPath>${project.basedir}/src/main/resources/hadoop-lzo-0.4.20-SNAPSHOT.jar</systemPath>
</dependency>