大数据环境安装笔记Flume安装
安装包:https://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.7.0/
-
系统环境:centos7 mininal
-
文件位置:/home
-
主机地址:192.168.1.121
Flume简单来说是一个传输工具负责将爬虫或者日志文件实时放入hdfs如下图:
安装步骤非常简单只需将其解压然后进入../flume/conf/flume-env.sh他的处理是基于jvm的所以修改JAVA_HOME即可
- 解压:tar -zxvf apache-flume-1.7.0-bin.tar.gz
- 重命名:mv apache-flume-1.7.0-bin flume-1.7.0
- 进入../flume-1.7.0/conf:cd /home/flume-1.7.0/conf
- 将模板文件复制一份:cp flume-env.sh.template flume-env.sh
- 修改JAVA_HOME:vi flume-env.sh 修改如下配置
测试
新建一个agent文件flume-conf.properties.example :
- mple.conf: A single-node Flume configuration
- # Name the components on this agent
- a1.sources = r1
- a1.sinks = k1
- a1.channels = c1
- # Describe/configure the source
- a1.sources.r1.type = netcat
- a1.sources.r1.bind = localhost
- a1.sources.r1.port = 44444
- nk# Describe the si
- a1.sinks.k1.type = logger
- # Use a channel which buffers events in memory
- a1.channels.c1.type = memory
- a1.channels.c1.capacity = 1000
- a1.channels.c1.transactionCapacity = 100
- # Bind the source and sink to the channel
- a1.sources.r1.channels = c1
- a1.sinks.k1.channel = c1
启动一个agent:./bin/flume-ng agent --conf conf --conf-file conf/flume-conf.properties.example --name a1 -Dflume.root.logger=INFO,console
会出现如下信息
这是前台启动所以启动后看不见命令行,这个不要从新开一个窗口输入:Telnet localhost 44444 会出现如下信息
输入hello world 会换行出现一个ok
再转回前台的窗口会出现如下信息
大数据环境安装笔记Spark安装
安装包:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/
-
系统环境:centos7 mininal
-
文件位置:/home
-
主机地址:192.168.1.121 zt01, 192.168.1.122 zt02, 192.168.1.123 yt03
- 解压到/home目录
- 进入spark-2.4.7/conf
- 复制配置文件模板:cp spark-env.sh.template spark-env.sh
- 进入配置文件:vi spark-env.sh
- 再最末尾添加如下环境变量:
- export JAVA_HOME=/home/java
- export SPARK_MASTER_IP=192.168.1.121
- export SPARK_WORKER_MEMORY=1g
- export SPARK_CONF_DIR=/home/hadoop-2.9.2/etc/hadoo
远程复制给从机:scp -r /home/spark-2.4.7 zt02:/home scp -r /home/spark-2.4.7 zt02:/home
启动spark:/home/spark-2.4.7/sbin/start-all.sh
简单使用spark
在 ./examples/src/main 目录下有一些 Spark 的示例程序,有 Scala、Java、Python、R 等语言的版本。
计算 π 的近似值,执行如下命令:
Spark的交互式界面
输入:./bin/spark-shell进入交互式界面
大数据环境安装Storm安装
安装包:https://mirrors.tuna.tsinghua.edu.cn/apache/storm/apache-storm-1.2.3/
-
系统环境:centos7 mininal
-
文件位置:/home
-
主机地址:192.168.1.121 zt01, 192.168.1.122 zt02, 192.168.1.123 yt03
-
安装包目录:/home
先将安装包解压:ar -zxvf apache-storm-1.2.3.tar.gz
修改文件名称:mv apache-storm-1.2.3 storm-1.2.3
再storm-1.2.3目录下新建localdir
mkdir localdir
- #(下面的每行的空格是正常的,不是格式问题)
- ########### These MUST be filled in for a storm configuration
- storm.local.dir: "/opt/apache-storm-1.1.3/localdir"
- storm.zookeeper.port: 2181
- storm.zookeeper.servers:
- - "zt01"
- - "zt02"
- - "yt03"
- nimbus.seeds: ["zt01"]
- ui.host: 0.0.0.0
- ui.port: 8080
- supervisor.slots.ports:
- - 6700
- - 6701
- - 6702
- - 6703
参数解释:
1) storm.zookeeper.servers: Storm集群使用的Zookeeper集群地址,其格式如下:
2) storm.local.dir: Nimbus和Supervisor进程用于存储少量状态,如jars、confs等的本地磁盘目录,需要提前创建该目录并给以足够的访问权限。然后在storm.yaml中配置该目录,在storm-1.2.3文件夹下:mkdir localdir
3) nimbus.host: Storm集群Nimbus机器地址,各个Supervisor工作节点需要知道哪个机器是Nimbus,以便下载Topologies的jars、confs等文件
4) supervisor.slots.ports: 对于每个Supervisor工作节点,需要配置该工作节点可以运行的worker数量。每个worker占用一个单独的端口用于接收消息,该配置选项即用于定义哪些端口是可被worker使用的。默认情况下,每个节点上可运行4个workers,分别在6700、6701、6702和6703端口
复制到其他两个节点:
scp -r /home/storm-1.2.3 zt02:/home/
scp -r /home/storm-1.2.3 yt03 /home/
启动
主机上启动
- storm nimbus &
- storm ui &
- storm logviewer &
从机上启动
- storm supervisor &
- storm logviewer
安装成功!