【学习笔记】大数据技术之Flume

最新推荐文章于 2024-05-15 15:31:40 发布

在学习的王哈哈

最新推荐文章于 2024-05-15 15:31:40 发布

阅读量1.7k

点赞数 1

分类专栏：大数据文章标签： hadoop big data

本文链接：https://blog.csdn.net/prague6695/article/details/123819152

版权

这里写目录标题

思考？
第 1 章 Flume 概述
第 2 章 Flume 入门
第 3 章 Flume 进阶
4.企业真实面试题（重点）

思考？

1. 在实时监控目录下的多个追加文件中，更名文件怎样解决？

Taildir Source适合用于监听多个实时追加的文件，并且能够实现断点续传。但是一旦文件进行了更名，Flume会重新上传改文件（因为Flume会按照inode和file两个值去标识位置信息）。在我们监控hive.log时，每到12点，hive.log会自动更名为hive.log.当前日期。
如果写死hive.log，断电会丢数据。
解放方法1：不要这用按天更名的日志框架。可以用logback，生成自带日期
解决方法2：和后台商量，修改源码，改成仅用inode值标识位置信息。

2. 三个source有哪些？

exec：执行的是linux命令，tail -F 不支持单点续传
spooling directory：监控文件，不支持实时更新
taildir：可以单点续传，能实时更新，可以纪录inode，pos，file，

3. 自定义source时，会出现相同i的情况，为什么？

2022-03-30 16:48:50,630 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:95)] Event: {
    headers:{
   } body: 73 62 2D 77 61 6E 67 68 61 68 61 3A 32 2D 62 73 sb-wanghaha:2-bs }
2022-03-30 16:48:50,631 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:95)] Event: {
    headers:{
   } body: 73 62 2D 77 61 6E 67 68 61 68 61 3A 34 2D 62 73 sb-wanghaha:4-bs }
2022-03-30 16:48:50,631 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:95)] Event: {
    headers:{
   } body: 73 62 2D 77 61 6E 67 68 61 68 61 3A 34 2D 62 73 sb-wanghaha:4-bs }
2022-03-30 16:48:50,631 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:95)] Event: {
    headers:{
   } body: 73 62 2D 77 61 6E 67 68 61 68 61 3A 34 2D 62 73 sb-wanghaha:4-bs }
2022-03-30 16:48:50,631 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:95)] Event: {
    headers:{
   } body: 73 62 2D 77 61 6E 67 68 61 68 61 3A 34 2D 62 73 sb-wanghaha:4-bs }

在这里插入图片描述
processEvent太慢了，当这个方法第一次去event存放的地址时，它存放的已经是i=4的数据了，之前的被覆盖掉了

4. put的dorollback中，为什么TaildirSource不会丢数据而netcat会丢数据？

第 1 章 Flume 概述

框架类型：采集，存储，计算，工具（会用就行）

1.1 Flume 定义

Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单（动态上传）。
更多的是将本地文件上传到HDFS。
在这里插入图片描述

1.2 Flume 基础架构

Flume 组成架构如下图所示。
在这里插入图片描述

1.2.1 Agent

Agent 是一个 JVM 进程，它以事件的形式将数据从源头送至目的。
Agent 主要有 3 个部分组成，Source、Channel、Sink。

1.2.2 Source

Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据，包括 avro、thrift、exec、jms、spooling directory、netcat（端口数据）、taildir、sequence generator、syslog、http、legacy。

1.2.3 Sink

Sink 不断地轮询 Channel 中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。

Sink 组件目的地包括 hdfs、logger（测试多一些）、avro、thrift、ipc、file、HBase、solr、自定义。

1.2.4 Channel

Channel 是位于 Source 和 Sink 之间的缓冲区。因此，Channel 允许 Source 和 Sink 运作在不同的速率上。Channel 是线程安全的，可以同时处理几个 Source 的写入操作和几个Sink 的读取操作。

Flume 自带两种 Channel：Memory Channel（内存，速度快，安全性差）和 File Channel。
Memory Channel 是内存中的队列。Memory Channel 在不需要关心数据丢失的情景下适用。如果需要关心数据丢失，那么 Memory Channel 就不应该使用，因为程序死亡、机器宕机或者重启都会导致数据丢失。

File Channel 将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。

1.2.5 Event

在Source端进行封装
传输单元，Flume 数据传输的基本单元，以 Event 的形式将数据从源头送至目的地。
Event 由 Header 和Body 两部分组成，Header 用来存放该 event 的一些属性，为 K-V 结构，Body 用来存放该条数据，形式为字节数组。
在这里插入图片描述

第 2 章 Flume 入门

2.1 Flume 安装部署

2.1.1 安装地址

（1）Flume 官网地址：http://flume.apache.org/
（2）文档查看地址：http://flume.apache.org/FlumeUserGuide.html
（3）下载地址：http://archive.apache.org/dist/flume/

2.1.2 安装部署

（1）将 apache-flume-1.9.0-bin.tar.gz 上传到 linux 的/opt/software 目录下
（2）解压 apache-flume-1.9.0-bin.tar.gz 到/opt/module/目录下

[atguigu@hadoop102 software]$ tar -zxf /opt/software/apacheflume-1.9.0-bin.tar.gz -C /opt/module/

（3）修改 apache-flume-1.9.0-bin 的名称为 flume

[atguigu@hadoop102 module]$ mv /opt/module/apache-flume-1.9.0-bin /opt/module/flume

（4）将 lib 文件夹下的 guava-11.0.2.jar 删除以兼容 Hadoop 3.1.3
版本不一致会出错

[atguigu@hadoop102 lib]$ rm /opt/module/flume/lib/guava11.0.2.jar

java，hadoop环境变量要配好。

2.2 Flume 入门案例

2.2.1 监控端口数据官方案例

1）案例需求：
使用 Flume 监听一个端口，收集该端口数据，并打印到控制台。

2）需求分析：

监听数据端口案例分析

在这里插入图片描述

3）实现步骤：
（1）安装 netcat 工具

[atguigu@hadoop102 software]$ sudo yum install -y nc

（2）判断 44444 端口是否被占用

[atguigu@hadoop102 flume-telnet]$ sudo netstat -nlp | grep 44444

（3）创建 Flume Agent 配置文件 flume-netcat-logger.conf
（4）在 flume 目录下创建 job 文件夹并进入 job 文件夹。

[atguigu@hadoop102 flume]$ mkdir job
[atguigu@hadoop102 flume]$ cd job/

（5）在 job 文件夹下创建 Flume Agent 配置文件 flume-netcat-logger.conf。

[atguigu@hadoop102 job]$ vim flume-netcat-logger.conf

（6）在 flume-netcat-logger.conf 文件中添加如下内容。
添加内容如下：

# Name the components on this agent, 给当前agent命名组件，相当于声明变量
# a1 agent的名字
# 可以配多个组件s
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source 赋值变量
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Describe the sink      赋值变量
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory   赋值变量 1000个事件，100个事务（单次发出最大的容量）
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

==注：配置文件来源于官方手册 http://flume.apache.org/FlumeUserGuide.html
配置文件解析
在这里插入图片描述

（7）先开启 flume 监听端口
第一种写法：

[atguigu@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console

第二种写法：

[atguigu@hadoop102 flume]$ bin/flume-ng agent -c conf/ -n a1 -f job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console

参数说明：
--conf/-c：表示配置文件存储在 conf/目录
--name/-n：表示给 agent 起名为 a1
--conf-file/-f：flume 本次启动读取的配置文件是在 job 文件夹下的 flume-telnet.conf文件。
-Dflume.root.logger=INFO,console ：-D 表示 flume 运行时动态修改 flume.root.logger
参数属性值，并将控制台日志打印级别设置为 INFO 级别。日志级别包括:log、info、warn、error。

（8）使用 netcat 工具向本机的 44444 端口发送内容

[atguigu@hadoop102 ~]$ nc localhost 44444
hello 
atguigu

（9）在 Flume 监听页面观察接收数据情况
在这里插入图片描述

2.2.2 实时监控单个追加文件

1）案例需求：实时监控 Hive 日志，并上传到 HDFS 中
2）需求分析：
在这里插入图片描述

3）实现步骤：
（1）Flume 要想将数据输出到 HDFS，依赖 Hadoop 相关 jar 包
检查/etc/profile.d/my_env.sh 文件，确认 Hadoop 和 Java 环境变量配置正确

JAVA_HOME=/opt/module/jdk1.8.0_212
HADOOP_HOME=/opt/module/ha/hadoop-3.1.3
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export PATH JAVA_HOME HADOOP_HOME

（2）创建 flume-file-hdfs.conf 文件
创建文件
tail -F 不支持断点续传

[atguigu@hadoop102 job]$ vim flume-file-hdfs.conf

在这里插入图片描述

注：要想读取 Linux 系统中的文件，就得按照 Linux 命令的规则执行命令。由于 Hive日志在 Linux 系统中所以读取文件的类型选择：exec 即 execute 执行的意思。表示执行Linux 命令来读取文件。
添加如下内容

# Name the components on this agent
a2.sources = r2
a2.sinks = k2
a2.channels = c2
# Describe/configure the source
a2.sources.r2.type = exec
a2.sources.r2.command = tail -F /opt/module/hive/logs/hive.log
# Describe the sink
a2.sinks.k2.type = hdfs
a2.sinks.k2.hdfs.path = hdfs://hadoop102:8020/flume/%Y%m%d/%H
#上传文件的前缀
a2.sinks.k2.hdfs.filePrefix = logs-
#是否按照时间滚动文件夹
a2.sinks.k2.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k2.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k2.hdfs.roundUnit = hour
#是否使用本地时间戳,必须为true，头信息没有时间戳
a2.sinks.k2.hdfs.useLocalTimeStamp = true
#积攒多少个 Event 才 flush 到 HDFS 一次
a2.sinks.k2.hdfs.batchSize = 100
#设置文件类型，可支持压缩
a2.sinks.k2.hdfs.fileType = DataStream

# 任意一个触发
#多久生成一个新的文件，单位是秒
a2.sinks.k2.hdfs.rollInterval = 60
#设置每个文件的滚动大小 接近128M
a2.sinks.k2.hdfs.rollSize = 134217700
#文件的滚动与 Event 数量无关，禁用
a2.sinks.k2.hdfs.rollCount = 0

# Use a channel which buffers events in memory
a2.channels.c2.type = memory
a2.channels.c2.capacity = 1000
a2.channels.c2.transactionCapacity = 100
# Bind the source and sink to the channel
a2.sources.r2.channels = c2
a2.sinks.k2.channel = c2

注意：对于所有与时间相关的转义序列，Event Header 中必须存在以 “timestamp”的key（除非 hdfs.useLocalTimeStamp 设置为 true，此方法会使用 TimestampInterceptor 自动添加 timestamp）。
a3.sinks.k3.hdfs.useLocalTimeStamp = true

实时读取本地文件到HDFS案例
在这里插入图片描述

（3）运行 Flume

[atguigu@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a2 --conf-file job/flume-file-hdfs.conf

（4）开启 Hadoop 和 Hive 并操作 Hive 产生日志

[atguigu@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh
[atguigu@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh
[atguigu@hadoop102 hive]$ bin/hive
hive (default)>

（5）在 HDFS 上查看文件。
在这里插入图片描述

2.2.3 实时监控目录下多个新文件

1）案例需求：使用 Flume 监听整个目录的文件，并上传至 HDFS
2）需求分析：
在这里插入图片描述

3）实现步骤：
（1）创建配置文件 flume-dir-hdfs.conf
创建一个文件

[atguigu@hadoop102 job]$ vim flume-dir-hdfs.conf

添加如下内容

a3.sources = r3
a3.sinks = k3
a3.channels = c3
# Describe/configure the source
a3.sources.r3.type = spooldir
a3.sources.r3.spoolDir = /opt/module/flume-1.9.0/upload
a3.sources.r3.fileSuffix = .COMPLETED
a3.sources.r3.fileHeader = true
#忽略所有以.tmp 结尾的文件，不上传
a3.sources.r3.ignorePattern = ([^ ]*\.tmp)
# Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs://hadoop102:8020/flume/upload/%Y%m%d/%H
#上传文件的前缀
a3.sinks.k3.hdfs.filePrefix = upload-
#是否按照时间滚动文件夹
a3.sinks.k3.hdfs.round = true
#多少时间单位创建一个新的文件夹
a3.sinks.k3.hdfs.roundValue = 1
#重新定义时间单位
a3.sinks.k3.hdfs.roundUnit = hour

最低0.47元/天解锁文章

在学习的王哈哈

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
【学习笔记】大数据技术之Flume

这里写目录标题思考？1. 在实时监控目录下的多个追加文件中，更名文件怎样解决？2. 三个source有哪些？3. 自定义source时，会出现相同i的情况，为什么？4. put的dorollback中，为什么TaildirSource不会丢数据而netcat会丢数据？第 1 章 Flume 概述1.1 Flume 定义1.2 Flume 基础架构1.2.1 Agent1.2.2 Source1.2.3 Sink1.2.4 Channel1.2.5 Event第 2 章 Flume 入门2.1 Flume 安
复制链接

扫一扫

专栏目录