#编辑环境变量
vim /etc/profile
#添加以下内容
#MAVEN_HOME
MAVEN_HOME=/opt/maven-3.9.6
PATH=$MAVEN_HOME/bin:$PATH
export MAVEN_HOME PATH
#更新环境变量
source /etc/profile
6、测试maven:mvn -version
二、安装lzo
1、下载lzo:wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz
2、解压,并进入lzo目录
3、设置安装路径:./configure -prefix=/usr/local/hadoop/lzo/
注意:这个路径是hadoop目录,不能随便设。
4、安装
make
make install
注意:需要把/usr/local/hadoop/lzo/分发到其他集群中
5、下载源码:wget https://github.com/twitter/hadoop-lzo/archive/master.zip
6、修改解压后的pom.xml
<hadoop.current.version>3.2.4</hadoop.current.version>
7、声明临时变量
export C_INCLUDE_PATH=/opt/lzo/include
export LIBRARY_PATH=/opt/lzo/lib
8、进入hadoop-lzo-master,执行maven编译命令:mvn package -Dmaven.test.skip=true
9、进入target目录,如果有hadoop-lzo-0.4.21-SNAPSHOT.jar包,则说明编译成功。
10、将编译好后的hadoop-lzo-0.4.21-SNAPSHOT.jar 放入/opt/hadoop/server/hadoop-3.2.4/share/hadoop/common中。
11、将hadoop-lzo-0.4.21-SNAPSHOT.jar 同步到其他服务器中。
12、给core-site.xml增加LZO配置
<property>
<name>io.compression.codecs</name>
<value>
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.BZip2Codec,
org.apache.hadoop.io.compress.SnappyCodec,
com.hadoop.compression.lzo.LzoCodec,
com.hadoop.compression.lzo.LzopCodec
</value>
</property>
<property>
<name>io.compression.codec.lzo.class</name>
<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>
13、将core-site.xml同步到其他服务器中。
三、测试lzo是否集成成功
1、启动hadoop
2、进入hadoop目录
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.4.jar wordcount -Dmapreduce.output.fileoutputformat.compress=true -Dmapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec /jobs /jobs.lzo
解释:
-Dmapreduce.output.fileoutputformat.compress=true
该语句是mapreduce最终的输出端配置支持压缩
-Dmapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec
该语句是压缩文件的形式
四、设置lzo为hadoop默认压缩方式
4.1、介绍:
hadoop压缩有一个默认的压缩格式,当然可以通过修改mapred.map.output.compression.codec
属性,使用新的压缩格式,这个变量可以在mapred-site.xml 中设置
#支持压缩 mapreduce.output.fileoutputformat.compress
#压缩方式 mapreduce.output.fileoutputformat.compress.codec
4.2、追加mapred-site.xml配置文件
<!--启用map中间文件压缩-->
<property>
<name>mapreduce.map.output.compress</name>
<value>true</value>
</property>
<!--启用map中间压缩类-->
<property>
<name>mapred.map.output.compression.codec</name>
<value>com.hadoop.compression.lzo.LzopCodec</value>
</property>
<!--启用mapreduce文件压缩-->
<property>
<name>mapreduce.output.fileoutputformat.compress</name>
<value>true</value>
</property>
<!--启用mapreduce压缩类-->
<property>
<name>mapreduce.output.fileoutputformat.compress.codec</name>
<value>com.hadoop.compression.lzo.LzopCodec</value>
</property>
<!--配置Jar包-->
<property>
<name>mapred.child.env</name>
<value>LD_LIBRARY_PATH=/home/hadoop/app/hadoop/lzo/lib</value>
</property>
4.3、使用hadoop自带wordcount程序测试
# 将要统计的文件上传到hdfs中
hdfs dfs -put /home/hadoop/jobs/bin /
# 1、测试生成lzo文件
## 进入以下目录
cd /home/hadoop/app/hadoop/share/hadoop/mapreduce
**自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。**
**深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!**
**因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。**
![img](https://img-blog.csdnimg.cn/img_convert/61251d7dce81920a3f1855d337a6d0ca.png)
![img](https://img-blog.csdnimg.cn/img_convert/e581894de6b91a37a6e0f5063233f1e9.png)
![img](https://img-blog.csdnimg.cn/img_convert/d070940d0e0b40595ffed1d1ceda0d36.png)
![img](https://img-blog.csdnimg.cn/img_convert/b97913f269c2a8b902eca36de40580db.png)
![img](https://img-blog.csdnimg.cn/img_convert/0766e4b5736a782c4773954a78b835b9.png)
**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!**
**由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**
**如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)**
![img](https://img-blog.csdnimg.cn/img_convert/79409289efb80c28f1c5a56291deca5e.png)
的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!**
**由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**
**如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)**
[外链图片转存中...(img-y2MpyPQZ-1712839408315)]