hive/azkaban/hadoop/zookeeper/flume的简单配置和启动，以及工具下载。整理。

最新推荐文章于 2021-10-16 23:26:05 发布

old_小书童

最新推荐文章于 2021-10-16 23:26:05 发布

阅读量311

点赞数 1

分类专栏：大数据学习

本文链接：https://blog.csdn.net/ieiqny1/article/details/84955790

版权

大数据学习专栏收录该内容

23 篇文章 0 订阅

订阅专栏

一、hive启动方式下载地址 https://download.csdn.net/download/ieiqny1/10843154
方式（1）
hive/bin/beeline 回车，进入beeline的命令界面
输入命令连接hiveserver2
beeline> !connect jdbc:hive2//mini1:10000
（hadoop01是hiveserver2所启动的那台主机名，端口默认是10000）
方式（2）
或者启动就连接：
bin/beeline -u jdbc:hive2://mini1:10000 -n hadoop

二、azkaban配置及启动下载地址https://download.csdn.net/download/ieiqny1/10840608
一、配置
1.1、进入mysql
mysql> create database azkaban;
mysql> use azkaban;
mysql> source /home/hadoop/azkaban-2.5.0/create-all-sql-2.5.0.sql;
1.2、生成keystore证书文件
keytool -keystore keystore -alias jetty -genkey -keyalg RSA
1.2.1
将在当前目录生成keystore证书文件,将keystore拷贝到azkaban web服务器根目录中.如:cp keystore azkaban/server
1.3、先配置好服务器节点上的时区
1、先生成时区配置文件Asia/Shanghai，用交互式命令 tzselect 即可
2、拷贝该时区文件，覆盖系统本地时区配置
cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

1.4、azkaban web服务器配置
进入azkaban web服务器安装目录conf目录

修改azkaban.properties文件
命令vi azkaban.properties
内容说明如下:
#Azkaban Personalization Settings
azkaban.name=Test #服务器UI名称,用于服务器上方显示的名字
azkaban.label=My Local Azkaban #描述
azkaban.color=#FF3601 #UI颜色
azkaban.default.servlet.path=/index #
web.resource.dir=web/ #默认根web目录
default.timezone.id=Asia/Shanghai #默认时区,已改为亚洲/上海默认为美国

#Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager #用户权限管理默认类
user.manager.xml.file=conf/azkaban-users.xml #用户配置,具体配置参加下文

#Loader for projects
executor.global.properties=conf/global.properties # global配置文件所在位置
azkaban.project.dir=projects #

database.type=mysql #数据库类型
mysql.port=3306 #端口号
mysql.host=localhost #数据库连接IP
mysql.database=azkaban #数据库实例名
mysql.user=root #数据库用户名
mysql.password=root #数据库密码
mysql.numconnections=100 #最大连接数

# Velocity dev mode
velocity.dev.mode=false
# Jetty服务器属性.
jetty.maxThreads=25 #最大线程数
jetty.ssl.port=8443 #Jetty SSL端口
jetty.port=8081 #Jetty端口
jetty.keystore=keystore #SSL文件名
jetty.password=123456 #SSL文件密码
jetty.keypassword=123456 #Jetty主密码与 keystore文件相同
jetty.truststore=keystore #SSL文件名
jetty.trustpassword=123456 # SSL文件密码

#执行服务器属性
executor.port=12321 #执行服务器端口

#邮件设置
mail.sender=xxxxxxxx@163.com #发送邮箱
mail.host=smtp.163.com #发送邮箱smtp地址
mail.user=xxxxxxxx #发送邮件时显示的名称
mail.password=********** #邮箱密码
job.failure.email=xxxxxxxx@163.com #任务失败时发送邮件的地址
job.success.email=xxxxxxxx@163.com #任务成功时发送邮件的地址
lockdown.create.projects=false #
cache.directory=cache #缓存目录

azkaban 执行服务器executor配置
进入执行服务器安装目录conf,修改azkaban.properties
vi azkaban.properties
#Azkaban
default.timezone.id=Asia/Shanghai #时区

# Azkaban JobTypes 插件配置
azkaban.jobtype.plugin.dir=plugins/jobtypes #jobtype 插件所在位置

#Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects

#数据库设置
database.type=mysql #数据库类型(目前只支持mysql)
mysql.port=3306 #数据库端口号
mysql.host=192.168.20.200 #数据库IP地址
mysql.database=azkaban #数据库实例名
mysql.user=root #数据库用户名
mysql.password=root #数据库密码
mysql.numconnections=100 #最大连接数

# 执行服务器配置
executor.maxThreads=50 #最大线程数
executor.port=12321 #端口号(如修改,请与web服务中一致)
executor.flow.threads=30 #线程数

用户配置
进入azkaban web服务器conf目录,修改azkaban-users.xml
vi azkaban-users.xml 增加管理员用户
<azkaban-users>
<user username="azkaban" password="azkaban" roles="admin" groups="azkaban" />
<user username="metrics" password="metrics" roles="metrics"/>
<user username="admin" password="admin" roles="admin,metrics" />
<role name="admin" permissions="ADMIN" />
<role name="metrics" permissions="METRICS"/>
</azkaban-users>

二、启动
1、web服务器启动方式
bin/azkaban-web-start.sh 或者启动到后台 nohup bin/azkaban-web-start.sh 1>/tmp/azstd.out 2>/tmp/azerr.out &
2、执行服务器启动方式
bin/azkaban-executor-start.sh

web访问
https://ip或者主机名:8443

三、hadoop 启动方式下载地址https://download.csdn.net/download/ieiqny1/10843128
1、环境变量配置
export JAVA_HOME=/usr/local/jdk1.8.0_191
export HADOOP_HOME=/home/hadoop/hadoop-2.6.4
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

2、安装部署

规划安装目录 /home/hadoop/apps/hadoop-2.6.1
解压安装包
修改配置文件 $HADOOP_HOME/etc/hadoop/

最简化配置如下：
vi hadoop-env.sh
# The java implementation to use.
export JAVA_HOME=/home/hadoop/apps/jdk1.7.0_51

vi core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://hdp-node-01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/HADOOP/apps/hadoop-2.6.1/tmp</value>
</property>
</configuration>
vi hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/data/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/data/data</value>
</property>

<property>
<name>dfs.replication</name>
<value>3</value>
</property>

<property>
<name>dfs.secondary.http.address</name>
<value>hdp-node-01:50090</value>
</property>
</configuration>

vi mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

vi yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop01</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

vi salves
hdp-node-01
hdp-node-02
hdp-node-03

scp -r hadoop-2.6.4 test1:/home/hadoop/

4.1.7 启动集群
初始化HDFS
bin/hadoop namenode -format

hadoop-daemon.sh start namenode
hadoop-daemon.sh start datanode

启动HDFS
sbin/start-dfs.sh

启动YARN
sbin/start-yarn.sh

全部启动
start-all.sh

yarn 启动界面http://ip/主机名:8088
dhfs 启动界面http://ip/主机名:50070

四 zookeeper配置以及启动方式下载地址https://download.csdn.net/download/ieiqny1/10843101
1、环境变量配置
export ZOOKEEPER_HOME=/root/apps/zookeeper
export PATH=$PATH:$ZOOKEEPER_HOME/bin

2、修改配置文件
2.1、用hadoop用户操作
cd zookeeper/conf
cp zoo_sample.cfg zoo.cfg
2.2、vi zoo.cfg
2.2.1、添加内容：
dataDir=/home/hadoop/zookeeper/data
dataLogDir=/home/hadoop/zookeeper/log
server.1=slave1:2888:3888 (主机名, 心跳端口、数据端口)
server.2=slave2:2888:3888
server.3=slave3:2888:3888
2.3、创建文件夹：
cd /home/hadoop/zookeeper/
mkdir -m 755 data
mkdir -m 755 log
2.3.1、在data文件夹下新建myid文件，myid的文件内容为：
cd data
vi myid
添加内容：
1

2.4、将集群下发到其他机器上
scp -r /home/hadoop/zookeeper hadoop@slave2:/home/hadoop/
scp -r /home/hadoop/zookeeper hadoop@slave3:/home/hadoop/
2.5、修改其他机器的配置文件
到slave2上：修改myid为：2
到slave3上：修改myid为：3
3、启动
zkServer.sh start
4、查看集群状态
1、jps（查看进程）
2、zkServer.sh status（查看集群状态，主从信息）
五 flume安装部署下载地址https://download.csdn.net/download/ieiqny1/10840592

1Flume的安装部署
1.1、Flume的安装非常简单，只需要解压即可，当然，前提是已有hadoop环境
上传安装包到数据源所在节点上
然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz
然后进入flume的目录，修改conf下的flume-env.sh，在里面配置JAVA_HOME

1.2、根据数据采集的需求配置采集方案，描述在配置文件中(文件名可任意自定义)
1.3、指定采集方案配置文件，在相应的节点上启动flume agent

先用一个最简单的例子来测试一下程序环境是否正常
先在flume的conf目录下新建一个文件

vi netcat-logger.conf

# 定义这个agent中各组件的名字
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# 描述和配置source组件：r1
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# 描述和配置sink组件：k1
a1.sinks.k1.type = logger

# 描述和配置channel组件，此处使用是内存缓存的方式
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# 描述和配置source channel sink之间的连接关系
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

2、启动agent去采集数据
bin/flume-ng agent -c conf -f conf/netcat-logger.conf -n a1 -Dflume.root.logger=INFO,console
-c conf 指定flume自身的配置文件所在目录
-f conf/netcat-logger.con 指定我们所描述的采集方案
-n a1 指定我们这个agent的名字

old_小书童

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive/azkaban/hadoop/zookeeper/flume的简单配置和启动，以及工具下载。整理。

一、hive启动方式下载地址 https://download.csdn.net/download/ieiqny1/10843154 方式（1） hive/bin/beeline 回车，进入beeline的命令界面输入命令连接hiveserver2 beeline&gt; !connect jdbc:hive2//mini1:10000 （had...
复制链接

扫一扫

专栏目录