复习总结03：辅助系统Azkaban/flume/sqoop

最新推荐文章于 2020-01-06 10:55:15 发布

小于狙击手

最新推荐文章于 2020-01-06 10:55:15 发布

阅读量353

点赞数

分类专栏：复习与总结

本文链接：https://blog.csdn.net/u014253445/article/details/77718314

版权

复习与总结专栏收录该内容

18 篇文章 0 订阅

订阅专栏

…………………………………………………………………………………………一、Flume…………………………………………………………………………………………………………

一、Flume概述：

分布式，高可靠，高可用海量日志采集、聚合和传输系统。通过对flume设置来实现采集需求。

flume可以采集文件，socket数据包等各种形式源数据输出到HDFS，Hbase，Hive，Kafka。

用agent对象来完成采集和输出

①source采集数据源------channel内部数据传输通道------sink下沉地数据目的地

不用设置hdfs，flume自己定位

二、案例① 监控某个文件的变化把新文件采集到HDFS上

设置好文件路径执行： bin/flume-ng agent -c conf -f conf/tail-hdfs.conf -n a1

设置好flume对某文件的监听

然后执行

while true

do

echo ********** >> /home/hadoop/log/test.log

sleep 1

done

观察hdfs上flume/events/17-08-14/1630/log-.1502699961742 发现日志文件滚动生成

tail-hdfs.conf文件如下

# Name the components on this agent

a1.sources = r1

a1.sinks = k1

a1.channels = c1

#exec 指的是命令

# ………………………………………………………………描述数据源………………………………………………………………

a1.sources.r1.type = exec

#F根据文件名追中, f根据文件的nodeid追中

a1.sources.r1.command = tail -F /home/hadoop/log/test.log

a1.sources.r1.channels = c1

# ………………………………………………………………描述数据终点……………………………………………………

#下沉目标

a1.sinks.k1.type = hdfs

a1.sinks.k1.channel = c1

#指定目录, flum帮做目的替换

a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/

#文件的命名, 前缀

a1.sinks.k1.hdfs.filePrefix = events-

#10 分钟就改目录

a1.sinks.k1.hdfs.round = true

a1.sinks.k1.hdfs.roundValue = 10

a1.sinks.k1.hdfs.roundUnit = minute

#文件滚动之前的等待时间(秒)

a1.sinks.k1.hdfs.rollInterval = 3

#文件滚动的大小限制(bytes)

a1.sinks.k1.hdfs.rollSize = 500

#写入多少个event数据后滚动文件(事件个数)

a1.sinks.k1.hdfs.rollCount = 20

#5个事件就往里面写入

a1.sinks.k1.hdfs.batchSize = 5

#用本地时间格式化目录

a1.sinks.k1.hdfs.useLocalTimeStamp = true

#下沉后, 生成的文件类型，默认是Sequencefile，可用DataStream，则为普通文本

a1.sinks.k1.hdfs.fileType = DataStream

# Use a channel which buffers events in memory

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

三、案例② 监控某个文件夹下的文件

备注：只能往该文件夹下放文件 mv test.log /home/hadoop/log 不能内部生成才会监测到，并且将文件的内部信息输出到con

执行：bin/flume-ng agent -c ./conf -f ./conf/spool-logger.conf -n a1 -Dflume.root.logger=INFO,console

移动某文件到该监测文件夹： mv test.log /home/hadoop/log

此时控制台输出文件内容每一行输出一次：{ headers:{file=/home/hadoop/log/words.txt} body: 68 65 6C 6C 6F 20 74 6F 6D hello tom }

spool-logger.conf文件如下

# Name the components on this agent

a1.sources = r1

a1.sinks = k1

a1.channels = c1

# 描述数据源

a1.sources.r1.type = spooldir

a1.sources.r1.spoolDir = /home/hadoop/flumespool       //指定监听的文件夹

a1.sources.r1.fileHeader = true

# Describe the sink

a1.sinks.k1.type = logger

# Use a channel which buffers events in memory

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

四、关于命令解析

 bin/flume-ng agent   -c  ./conf   -f ./conf/spool-logger.conf   -n a1   -Dflume.root.logger=INFO,console

-c conf 指定flume自身的配置文件所在目录

-f conf/netcat-logger.conf 指定采集方案的脚本文件

-n a1 指定这agent的名字

-Dflume.root.logger=INFO,console 控制台输出

./flume-ng agent 命令 -c conf文件夹 -f 配置文件 -n a1 配置agent

……………………………………………………………………………………………二、Azkaban…………………………………………………………………………………………………………

Azkaban概述

一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元。

这些任务之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；

例如，我们可能有这样一个需求，某个业务系统每天产生20G原始数据，我们每天都要对其进行处理，处理步骤如下所示：

1、通过Hadoop先将原始数据同步到HDFS上；

2、借助MapReduce计算框架对原始数据进行转换，生成的数据以分区表的形式存储到多张Hive表中；

3、需要对Hive中多个表的数据进行JOIN处理，得到一个明细数据Hive大表；

4、将明细数据进行复杂的统计分析，得到结果报表信息；

5、需要将统计分析得到的结果数据同步到业务系统中，供业务调用使用。

………………………………………………………………………………………………三、sqoop…………………………………………………………………………………………………………

一、sqoop概述：

sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。

导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；

导出数据：从Hadoop的文件系统中导出数据到关系数据库

将导入或导出命令翻译成mapreduce程序来实现，运算框架仍然还是：MapReduce！

在翻译出的mapreduce中主要是对inputformat和outputformat进行定制

运算中会出现hackdata的检查，发现不存在，暂未解决

二、MySQL的操作

MySQL创建数据表：

A：MySQL中创建数据表emp ,emp_add ,emp_conn

mysql> create table emp(
> id int(4) ,
> name char(20) ,
> sex int(4) ,
> degree double(16,2));

B：导入数据文件 emp.txt # 文件内的每个元素之间用Tab分开

load data local infile '/home/hadoop/emp.txt' into table emp;

三、sqoop导入导出数据表操作：

从本地MySQL------->>>>------hdfs：

①、MySQL中数据库userdb的数据表emp导入到hdfs中其数据库文件放在 /user/hadoop/emp

./sqoop import --connect jdbc:mysql://localhost:3306/userdb --username root --password root --table emp --m 1

指定MySQL下的数据库userdb root名 root的密码导入的数据表

②、MySQL中数据库userdb的数据表emp_add导入到hive中，其数据库文件放在/user/hive/emp_add 在hive> 下能查看到新的表emp_add (先放在hadoop下，后移动到hive下

./sqoop import --connect jdbc:mysql://localhost:3306/userdb --username root --password root --table emp_add --hive-import --m 1

指定是导入到hive中

③、MySQL中数据库的userdb的数据表emp_conn导入到hdfs的指定文件夹下

./sqoop import --connect jdbc:mysql://localhost:3306/userdb --username root --password root --target-dir /queryresult --table emp_conn --m 1 指定导入的文件夹

从hdfs-------->>>>------本地MySQL

④、hdfs上的数据表，导出到本地的MySQL中。首先，要先在本地新建一个同样的表，名字可以不同，格式要同

./sqoop export --connect jdbc:mysql://localhost:3306/userdb --username root --password root --table employee

--export-dir /user/hadoop/emp/ 指定导出后，保存到本地的数据表名

指定导出的数据表

执行语句：./sqoop import --connect 连接数据库 --用户名 --密码 --表(MySQL里的) --导入模式 --m 1

小于狙击手

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录