Hadoop集成LZO

#编辑环境变量
vim /etc/profile
​
#添加以下内容
#MAVEN_HOME
MAVEN_HOME=/opt/maven-3.9.6
PATH=$MAVEN_HOME/bin:$PATH
export MAVEN_HOME PATH
​
#更新环境变量
source /etc/profile

6、测试maven:mvn -version

二、安装lzo

1、下载lzo:wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz

2、解压,并进入lzo目录

3、设置安装路径:./configure -prefix=/usr/local/hadoop/lzo/

注意:这个路径是hadoop目录,不能随便设。

4、安装

make
​
make install

注意:需要把/usr/local/hadoop/lzo/分发到其他集群中

5、下载源码:wget https://github.com/twitter/hadoop-lzo/archive/master.zip

6、修改解压后的pom.xml

<hadoop.current.version>3.2.4</hadoop.current.version>

7、声明临时变量

export C_INCLUDE_PATH=/opt/lzo/include
export LIBRARY_PATH=/opt/lzo/lib

8、进入hadoop-lzo-master,执行maven编译命令:mvn package -Dmaven.test.skip=true

9、进入target目录,如果有hadoop-lzo-0.4.21-SNAPSHOT.jar包,则说明编译成功。

10、将编译好后的hadoop-lzo-0.4.21-SNAPSHOT.jar 放入/opt/hadoop/server/hadoop-3.2.4/share/hadoop/common中。

11、将hadoop-lzo-0.4.21-SNAPSHOT.jar 同步到其他服务器中。

12、给core-site.xml增加LZO配置

<property>
    <name>io.compression.codecs</name>
    <value>
        org.apache.hadoop.io.compress.GzipCodec,
        org.apache.hadoop.io.compress.DefaultCodec,
        org.apache.hadoop.io.compress.BZip2Codec,
        org.apache.hadoop.io.compress.SnappyCodec,
        com.hadoop.compression.lzo.LzoCodec,
        com.hadoop.compression.lzo.LzopCodec
    </value>
</property>
<property>
    <name>io.compression.codec.lzo.class</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

13、将core-site.xml同步到其他服务器中。

三、测试lzo是否集成成功

1、启动hadoop

2、进入hadoop目录

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.4.jar wordcount -Dmapreduce.output.fileoutputformat.compress=true -Dmapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec /jobs /jobs.lzo
​
解释: 
-Dmapreduce.output.fileoutputformat.compress=true
该语句是mapreduce最终的输出端配置支持压缩
-Dmapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec
该语句是压缩文件的形式
四、设置lzo为hadoop默认压缩方式

4.1、介绍:

hadoop压缩有一个默认的压缩格式,当然可以通过修改mapred.map.output.compression.codec属性,使用新的压缩格式,这个变量可以在mapred-site.xml 中设置

#支持压缩 mapreduce.output.fileoutputformat.compress

#压缩方式 mapreduce.output.fileoutputformat.compress.codec

4.2、追加mapred-site.xml配置文件

<!--启用map中间文件压缩-->
<property>
    <name>mapreduce.map.output.compress</name>
    <value>true</value>
</property>
<!--启用map中间压缩类-->
<property>
   <name>mapred.map.output.compression.codec</name>
   <value>com.hadoop.compression.lzo.LzopCodec</value>
</property>
<!--启用mapreduce文件压缩-->
<property>
    <name>mapreduce.output.fileoutputformat.compress</name>
    <value>true</value>
</property>
<!--启用mapreduce压缩类-->
<property>
   <name>mapreduce.output.fileoutputformat.compress.codec</name>
   <value>com.hadoop.compression.lzo.LzopCodec</value>
</property>
<!--配置Jar包-->
<property>
    <name>mapred.child.env</name>
    <value>LD_LIBRARY_PATH=/home/hadoop/app/hadoop/lzo/lib</value>
</property>

4.3、使用hadoop自带wordcount程序测试

# 将要统计的文件上传到hdfs中
hdfs dfs -put /home/hadoop/jobs/bin /
​
# 1、测试生成lzo文件
## 进入以下目录
cd /home/hadoop/app/hadoop/share/hadoop/mapreduce


**自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。**

**深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!**

**因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。**
![img](https://img-blog.csdnimg.cn/img_convert/61251d7dce81920a3f1855d337a6d0ca.png)
![img](https://img-blog.csdnimg.cn/img_convert/e581894de6b91a37a6e0f5063233f1e9.png)
![img](https://img-blog.csdnimg.cn/img_convert/d070940d0e0b40595ffed1d1ceda0d36.png)
![img](https://img-blog.csdnimg.cn/img_convert/b97913f269c2a8b902eca36de40580db.png)
![img](https://img-blog.csdnimg.cn/img_convert/0766e4b5736a782c4773954a78b835b9.png)

**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!**

**由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**

**如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)**
![img](https://img-blog.csdnimg.cn/img_convert/79409289efb80c28f1c5a56291deca5e.png)

的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!**

**由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**

**如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)**
[外链图片转存中...(img-y2MpyPQZ-1712839408315)]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值