Hadoop集成LZO_lzo源码下载-CSDN博客

本文链接：https://blog.csdn.net/2401_84181704/article/details/137652522

#编辑环境变量
vim /etc/profile

#添加以下内容
#MAVEN_HOME
MAVEN_HOME=/opt/maven-3.9.6
PATH=$MAVEN_HOME/bin:$PATH
export MAVEN_HOME PATH

#更新环境变量
source /etc/profile

6、测试maven：mvn -version

二、安装lzo

1、下载lzo：wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz

2、解压，并进入lzo目录

3、设置安装路径：./configure -prefix=/usr/local/hadoop/lzo/

注意：这个路径是hadoop目录，不能随便设。

4、安装

make

make install

注意：需要把/usr/local/hadoop/lzo/分发到其他集群中

5、下载源码：wget https://github.com/twitter/hadoop-lzo/archive/master.zip

6、修改解压后的pom.xml

<hadoop.current.version>3.2.4</hadoop.current.version>

7、声明临时变量

export C_INCLUDE_PATH=/opt/lzo/include
export LIBRARY_PATH=/opt/lzo/lib

8、进入hadoop-lzo-master，执行maven编译命令：mvn package -Dmaven.test.skip=true

9、进入target目录，如果有hadoop-lzo-0.4.21-SNAPSHOT.jar包，则说明编译成功。

10、将编译好后的hadoop-lzo-0.4.21-SNAPSHOT.jar 放入/opt/hadoop/server/hadoop-3.2.4/share/hadoop/common中。

11、将hadoop-lzo-0.4.21-SNAPSHOT.jar 同步到其他服务器中。

12、给core-site.xml增加LZO配置

<property>
    <name>io.compression.codecs</name>
    <value>
        org.apache.hadoop.io.compress.GzipCodec,
        org.apache.hadoop.io.compress.DefaultCodec,
        org.apache.hadoop.io.compress.BZip2Codec,
        org.apache.hadoop.io.compress.SnappyCodec,
        com.hadoop.compression.lzo.LzoCodec,
        com.hadoop.compression.lzo.LzopCodec
    </value>
</property>
<property>
    <name>io.compression.codec.lzo.class</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

13、将core-site.xml同步到其他服务器中。

三、测试lzo是否集成成功

1、启动hadoop

2、进入hadoop目录

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.4.jar wordcount -Dmapreduce.output.fileoutputformat.compress=true -Dmapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec /jobs /jobs.lzo

解释： 
-Dmapreduce.output.fileoutputformat.compress=true
该语句是mapreduce最终的输出端配置支持压缩
-Dmapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec
该语句是压缩文件的形式

四、设置lzo为hadoop默认压缩方式

4.1、介绍：

hadoop压缩有一个默认的压缩格式，当然可以通过修改mapred.map.output.compression.codec属性，使用新的压缩格式，这个变量可以在mapred-site.xml 中设置

#支持压缩 mapreduce.output.fileoutputformat.compress

#压缩方式 mapreduce.output.fileoutputformat.compress.codec

4.2、追加mapred-site.xml配置文件

<!--启用map中间文件压缩-->
<property>
    <name>mapreduce.map.output.compress</name>
    <value>true</value>
</property>
<!--启用map中间压缩类-->
<property>
   <name>mapred.map.output.compression.codec</name>
   <value>com.hadoop.compression.lzo.LzopCodec</value>
</property>
<!--启用mapreduce文件压缩-->
<property>
    <name>mapreduce.output.fileoutputformat.compress</name>
    <value>true</value>
</property>
<!--启用mapreduce压缩类-->
<property>
   <name>mapreduce.output.fileoutputformat.compress.codec</name>
   <value>com.hadoop.compression.lzo.LzopCodec</value>
</property>
<!--配置Jar包-->
<property>
    <name>mapred.child.env</name>
    <value>LD_LIBRARY_PATH=/home/hadoop/app/hadoop/lzo/lib</value>
</property>

4.3、使用hadoop自带wordcount程序测试

# 将要统计的文件上传到hdfs中
hdfs dfs -put /home/hadoop/jobs/bin /

# 1、测试生成lzo文件
## 进入以下目录
cd /home/hadoop/app/hadoop/share/hadoop/mapreduce


**自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。**

**深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！**

**因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。**
![img](https://img-blog.csdnimg.cn/img_convert/61251d7dce81920a3f1855d337a6d0ca.png)
![img](https://img-blog.csdnimg.cn/img_convert/e581894de6b91a37a6e0f5063233f1e9.png)
![img](https://img-blog.csdnimg.cn/img_convert/d070940d0e0b40595ffed1d1ceda0d36.png)
![img](https://img-blog.csdnimg.cn/img_convert/b97913f269c2a8b902eca36de40580db.png)
![img](https://img-blog.csdnimg.cn/img_convert/0766e4b5736a782c4773954a78b835b9.png)

**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！**

**由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

**如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）**
![img](https://img-blog.csdnimg.cn/img_convert/79409289efb80c28f1c5a56291deca5e.png)

的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！**

**由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

**如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）**
[外链图片转存中...(img-y2MpyPQZ-1712839408315)]