大数据比赛组件搭建常见题目总结

最新推荐文章于 2024-07-11 09:32:09 发布

我像影子一样

最新推荐文章于 2024-07-11 09:32:09 发布

阅读量362

点赞数 6

分类专栏：大数据组件搭建文章标签：大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_56181660/article/details/133084246

版权

大数据同时被 2 个专栏收录

44 篇文章 1 订阅

订阅专栏

13 篇文章 1 订阅

订阅专栏

本文详细介绍了如何在Hadoop集群环境下，对Hadoop、Spark、Flink、Hive、Kafka、Flume、ClickHouse和Hbase进行完全分布式安装配置，包括环境准备、文件复制、环境变量设置、实例运行验证等步骤。

摘要由CSDN通过智能技术生成

目录

任务一：Hadoop 完全分布式安装配置

任务二：Spark on Yarn安装配置

任务三：Flink on Yarn安装配置

任务四：Hive安装配置

任务五：Kafka安装配置

任务六：Flume安装配置

任务七：ClickHouse单机安装配置

任务八：Hbase完全分布式安装配置

任务一：Hadoop 完全分布式安装配置

本环节需要使用root用户完成相关配置，安装Hadoop需要配置前置环境。命令中要求使用绝对路径，具体要求如下:

从宿主机/opt目录下将文件hadoop-3.1.3.tar.gz、jdk-8u212-linux-x64.tar.gz复制到容器master中的/opt/software路径中（若路径不存在，则需新建），将master节点JDK安装包解压到/opt/module路径中(若路径不存在，则需新建)，将JDK解压命令复制并粘贴至对应报告中；
修改容器中/etc/profile文件，设置JDK环境变量并使其生效，配置完毕后在master节点分别执行“java -version”和“javac”命令，将命令行执行结果分别截图并粘贴至对应报告中；
请完成host相关配置，将三个节点分别命名为master、slave1、slave2，并做免密登录，用scp命令并使用绝对路径从master复制JDK解压后的安装文件到slave1、slave2节点（若路径不存在，则需新建），并配置slave1、slave2相关环境变量，将全部scp复制JDK的命令复制并粘贴至对应报告中；
在master将Hadoop解压到/opt/module(若路径不存在，则需新建)目录下，并将解压包分发至slave1、slave2中，其中master、slave1、slave2节点均作为datanode，配置好相关环境，初始化Hadoop环境namenode，将初始化命令及初始化结果截图（截取初始化结果日志最后20行即可）粘贴至对应报告中；
启动Hadoop集群（包括hdfs和yarn），使用jps命令查看master节点与slave1节点的Java进程，将jps命令与结果截图粘贴至对应报告中。

任务二：Spark on Yarn安装配置

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

从宿主机/opt目录下将文件spark-3.1.1-bin-hadoop2.7.tgz复制到容器master中的/opt/software（若路径不存在，则需新建）中，将Spark包解压到路径/opt/module路径中(若路径不存在，则需新建)，将完整解压命令复制粘贴至对应报告中；
修改容器中/etc/profile文件，设置Spark环境变量并使环境变量生效，在/opt目录下运行命令spark-submit --version，将命令与结果截图粘贴至对应报告中；
完成on yarn相关配置，使用spark on yarn 的模式提交$SPARK_HOME/examples/jars/spark-examples_3.11-3.1.1.jar 运行的主类为org.apache.spark.examples.SparkPi，将运行结果截图粘贴至对应报告中（截取Pi结果的前后各5行）。

（运行命令为：spark-submit --master yarn --class org.apache.spark.examples.SparkPi  $SPARK_HOME/examples/jars/spark-examples_3.11-3.1.1.jar）

任务三：Flink on Yarn安装配置

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

从宿主机/opt目录下将文件flink-1.14.0-bin-scala_2.12.tgz复制到容器master中的/opt/software（若路径不存在，则需新建）中,将Flink包解压到路径/opt/module中(若路径不存在，则需新建)，将完整解压命令复制粘贴至对应报告中；
修改容器中/etc/profile文件，设置Flink环境变量并使环境变量生效。在容器中/opt目录下运行命令flink --version，将命令与结果截图粘贴至对应报告中；
开启Hadoop集群，在yarn上以per job模式（即Job分离模式，不采用Session模式）运行 $FLINK_HOME/examples/batch/WordCount.jar，将运行结果最后10行截图粘贴至对应报告中。

示例 ：

flink run -m yarn-cluster -p 2 -yjm 2G -ytm 2G $FLINK_HOME/examples/batch/WordCount.jar

任务四：Hive安装配置

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

从宿主机/opt目录下将文件apache-hive-3.1.2-bin.tar.gz、mysql-connector-java-5.1.47.jar复制到容器master中的/opt/software路径中（若路径不存在，则需新建），将Master节点Hive安装包解压到/opt/module目录下，将命令复制并粘贴至对应报告中；
设置Hive环境变量，并使环境变量生效，执行命令hive --version并将命令与结果截图容复制并粘贴至对应报告中；
完成相关配置并添加所依赖包，将MySQL数据库作为Hive元数据库。初始化Hive元数据，并通过schematool相关命令执行初始化，将初始化结果截图（范围为命令执行结束的最后10行）复制粘贴至对应报告中。

任务五：Kafka安装配置

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

从宿主机/opt目录下将文件zookeeper-3.4.6.tar.gz、kafka_2.12-2.4.1.tgz复制到容器master中的/opt/software路径中（若路径不存在，则需新建），将Master节点Zookeeper、kafka安装包解压到/opt/module目录下，将kafka解压命令复制并粘贴至对应报告中；
配置好zookeeper，其中zookeeper使用集群模式，分别将master、slave1、slave2作为其节点（若zookpeer已安装配置好，则无需再次配置），配置好kafka的环境变量，使用kafka-server-start.sh --version查看kafka的版本内容，并将命令和结果截图粘贴至对应报告中；

完善其他配置并分发kafka文件到slave1、slave2中，并在每个节点启动Kafka，创建Topic，其中Topic名称为installtopic，分区数为2，副本数为2，将创建命令和创建成果截图粘贴到对应报告中。

任务六：Flume安装配置

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

从宿主机/opt目录下将文件apache-flume-1.9.0-bin.tar.gz复制到容器master中的/opt/software路径中（若路径不存在，则需新建），将Master节点Flume安装包解压到/opt/module目录下，将解压命令复制并粘贴至对应报告中；
完善相关配置设置，Hive环境变量，并使环境变量生效，执行命令flume-ng version并将命令与结果截图粘贴至对应报告中；
启动Flume传输Hadoop日志（namenode或datanode日志），查看HDFS中/tmp/flume目录下生成的内容，将查看命令及结果（至少5条结果）截图粘贴至对应报告中。

任务七：ClickHouse单机安装配置

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

从宿主机/opt目录下将文件ClickHouse 21.9.4的相关依赖包复制到容器master中的/opt/software路径中（若路径不存在，则需新建），将Master节点解压到/opt/module目录下，将解压命令复制并粘贴至对应报告中；
完善相关配置设置，启动clickhouse，将执行命令和结果截图粘贴至对应报告内；
连接clickhouse的客户端，将执行命令和结果截图粘贴至对应报告内。

任务八：Hbase完全分布式安装配置

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

从宿主机/opt目录下将文件hbase-2.2.3-bin.tar.gz安装包复制到容器master中的/opt/software路径中（若路径不存在，则需新建），将Master节点hbase-2.2.3-bin.tar.gz安装包解压到/opt/module目录下，将解压命令复制并粘贴至对应报告中；
完善相关配置设置，Hbase环境变量，并使环境变量生效，执行命令./bin/hbase shell，将命令和结果截图粘贴至对应报告内；

我像影子一样

关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
大数据比赛组件搭建常见题目总结

本文阐述了大数据比赛组件搭建的常见题目
复制链接

扫一扫

专栏目录

我像影子一样 CSDN认证博客专家 CSDN认证企业博客

码龄3年

99: 原创

23万+: 周排名

2万+: 总排名

7万+: 访问

: 等级

2070: 积分

753: 粉丝

1054: 获赞

31: 评论

947: 收藏

私信

关注

热门文章

分类专栏

AI夏令营 4篇
Datawhale 4篇
夏令营 4篇
python 18篇
mysql 7篇
数据库 4篇
Spark 30篇
大数据 44篇
数据结构与算法 5篇
Java 6篇
Linux 1篇
C# 15篇
Git 1篇
组件搭建 13篇
matplotlib 10篇
数据分析 8篇
VR 1篇
VisualStudio 3篇
numpy 1篇
可视化 12篇
pyecharts 4篇

最新评论

分子AI预测赛Task2笔记
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619124193。
快速使用pyecharts绘制常用图表
我像影子一样: 我这刚刚测试运行是没问题的，你可以将你的代码发出来我看看
快速使用pyecharts绘制常用图表
lovejink1: is_selected错误是为什么？
问题：为什么IP和端口一样的两个应用服务可以正常启动呢？
我像影子一样: 感谢您的答复，好像明白了MySQL和MongoDB这两个的问题。我还想请教一下，因为我在电脑上的Windows系统，一个A应用占用的是7788端口，这个A应用开机之后已经默认自动启动了，查询之后发现占用7788端口。这时，我想开另一个B应用，该B应用所占用的端口也是7788，一直点该B应用无法启动，也没任何提示，几经折腾才发现是端口占用问题，把A应用退出之后，此时B应用就可以正常启动使用了。请问一下这又是什么问题呢？
问题：为什么IP和端口一样的两个应用服务可以正常启动呢？
&小白~: 两个使用相同IP和端口的应用服务能够正常启动的原因在于操作系统为每个服务创建了独立的网络环境。尽管它们在同一个端口上运行，但在网络层上，它们实际上是在不同的网络环境中运行，因此不会相互干扰。此外，这些应用服务在操作系统中拥有独立的进程和配置文件，这也助于它们在同一端口下正常运行。以MySQL和MongoDB为例，当安装时将bindIP设置为0.0.0.0，端口设置为3306时，尽管它们使用相同的端口，但它们在网络层上运行时，操作系统为每个服务分配了一个独立的网络接口。这意味着它们在不同的网络环境中运行，因此不会发生冲突。总之，操作系统为每个服务创建了独立的网络环境，使得它们可以共存，而不受端口和IP地址相同的影响。只要这些服务在网络层上运行时不会相互干扰，它们就可以在同一端口下正常启动和运行。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。