大数据环境安装笔记

最新推荐文章于 2024-08-14 07:51:26 发布

AO_TAO

最新推荐文章于 2024-08-14 07:51:26 发布

阅读量236

点赞数

分类专栏：大数据学习笔记

本文链接：https://blog.csdn.net/AO_TAO/article/details/112970626

版权

大数据学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文档详细记录了在CentOS7环境下安装Flume、Spark和Storm的过程。Flume用于日志收集，配置包括解压、重命名、设置JAVA_HOME。Spark安装涉及复制配置文件、设置环境变量，并通过start-all.sh启动。Storm安装则包括解压、配置storm.yaml，最后分别启动Nimbus、UI和Supervisor。

摘要由CSDN通过智能技术生成

大数据环境安装笔记Flume安装

安装包：https://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.7.0/

系统环境：centos7 mininal
文件位置：/home
主机地址：192.168.1.121

Flume简单来说是一个传输工具负责将爬虫或者日志文件实时放入hdfs如下图：

安装步骤非常简单只需将其解压然后进入../flume/conf/flume-env.sh他的处理是基于jvm的所以修改JAVA_HOME即可

解压：tar -zxvf apache-flume-1.7.0-bin.tar.gz
重命名：mv apache-flume-1.7.0-bin flume-1.7.0
进入../flume-1.7.0/conf：cd /home/flume-1.7.0/conf
将模板文件复制一份：cp flume-env.sh.template flume-env.sh
修改JAVA_HOME：vi flume-env.sh 修改如下配置

测试

新建一个agent文件flume-conf.properties.example ：

mple.conf: A single-node Flume configuration
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
nk# Describe the si
a1.sinks.k1.type = logger
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

启动一个agent：./bin/flume-ng agent --conf conf --conf-file conf/flume-conf.properties.example --name a1 -Dflume.root.logger=INFO,console

会出现如下信息

这是前台启动所以启动后看不见命令行，这个不要从新开一个窗口输入：Telnet localhost 44444 会出现如下信息

输入hello world 会换行出现一个ok

再转回前台的窗口会出现如下信息

大数据环境安装笔记Spark安装

安装包：https://mirrors.tuna.tsinghua.edu.cn/apache/spark/

系统环境：centos7 mininal
文件位置：/home
主机地址：192.168.1.121 zt01, 192.168.1.122 zt02, 192.168.1.123 yt03

解压到/home目录
进入spark-2.4.7/conf
复制配置文件模板：cp spark-env.sh.template spark-env.sh
进入配置文件：vi spark-env.sh
再最末尾添加如下环境变量：

export JAVA_HOME=/home/java
export SPARK_MASTER_IP=192.168.1.121
export SPARK_WORKER_MEMORY=1g
export SPARK_CONF_DIR=/home/hadoop-2.9.2/etc/hadoo

远程复制给从机：scp -r /home/spark-2.4.7 zt02:/home scp -r /home/spark-2.4.7 zt02:/home

启动spark：/home/spark-2.4.7/sbin/start-all.sh

简单使用spark

在 ./examples/src/main 目录下有一些 Spark 的示例程序，有 Scala、Java、Python、R 等语言的版本。

计算 π 的近似值，执行如下命令：

Spark的交互式界面

输入：./bin/spark-shell进入交互式界面

大数据环境安装Storm安装

安装包：https://mirrors.tuna.tsinghua.edu.cn/apache/storm/apache-storm-1.2.3/

系统环境：centos7 mininal
文件位置：/home
主机地址：192.168.1.121 zt01, 192.168.1.122 zt02, 192.168.1.123 yt03
安装包目录：/home

先将安装包解压：ar -zxvf apache-storm-1.2.3.tar.gz

修改文件名称：mv apache-storm-1.2.3 storm-1.2.3

再storm-1.2.3目录下新建localdir

mkdir localdir

#（下面的每行的空格是正常的，不是格式问题）
########### These MUST be filled in for a storm configuration
storm.local.dir: "/opt/apache-storm-1.1.3/localdir"
storm.zookeeper.port: 2181
storm.zookeeper.servers:
- "zt01"
- "zt02"
- "yt03"
nimbus.seeds: ["zt01"]
ui.host: 0.0.0.0
ui.port: 8080
supervisor.slots.ports:
- 6700
- 6701
- 6702
- 6703

参数解释：

1) storm.zookeeper.servers: Storm集群使用的Zookeeper集群地址，其格式如下：

2) storm.local.dir: Nimbus和Supervisor进程用于存储少量状态，如jars、confs等的本地磁盘目录，需要提前创建该目录并给以足够的访问权限。然后在storm.yaml中配置该目录，在storm-1.2.3文件夹下：mkdir localdir

3) nimbus.host: Storm集群Nimbus机器地址，各个Supervisor工作节点需要知道哪个机器是Nimbus，以便下载Topologies的jars、confs等文件

4) supervisor.slots.ports: 对于每个Supervisor工作节点，需要配置该工作节点可以运行的worker数量。每个worker占用一个单独的端口用于接收消息，该配置选项即用于定义哪些端口是可被worker使用的。默认情况下，每个节点上可运行4个workers，分别在6700、6701、6702和6703端口