flume学习笔记

最新推荐文章于 2024-05-28 14:57:58 发布

Fqzzzzz

最新推荐文章于 2024-05-28 14:57:58 发布

阅读量1.5k

点赞数 1

文章标签： flume big data hadoop

本文链接：https://blog.csdn.net/Fqzzzzz/article/details/121409325

版权

前言

感谢尚大学，笔记里的图片都是截取自尚硅谷的课件。这份博客也是自己的学习总结

Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。

在这里插入图片描述
flume可以进行实时的采集，来一条采集一条

最主要就是实时读取数据，传入hdfs进行持久化

配合kafka可以实现日志信息在不同业务中共享

在这里插入图片描述

source采集数据，sink传输数据，中间的管道就起到一个缓冲器的作用，允许读数据和写数据的速率不同

Agent 是一个 JVM 进程，它以事件的形式将数据从源头送至目的。
Source 是负责接收数据到 Flume Agent 的组件
Sink 不断地轮询 Channel 中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。
Channel 是位于 Source 和 Sink 之间的缓冲区。因此，Channel 允许 Source 和 Sink 运作在不同的速率上。Channel 是线程安全的，可以同时处理几个 Source 的写入操作和几个Sink 的读取操作。

1.7版本之后 taildir source可以做到监听多个实时追加文件，实现断点续传（flume传输数据时突然挂掉了，重启后从上一次挂掉的位置继续传输数据）

Exec source 适用于监控一个实时追加的文件，不能实现断点续传

Spooldir Source适合用于同步新文件，但不适合对实时追加日志的文件进行监听并同步；

进行追加操作时，flume记录inode（linux文件唯一标识符），绝对路径以及上次读取节点，有一些日志，如hive，过12点会进行文件更名，flume根据iNode值和文件名组合判断这是一个尚未上传的文件，这时会重新上传日志，导致重复的日志信息。

还有一种情况，如果在11.30挂了，第二天才重新启动，那么这半个小时的数据就丢了，因为文件已经更名了

使用logbac框架，直接生成带日期的文件

更改源码：只使用iNode
在这里插入图片描述

在这里插入图片描述
这里doCommit检查内存队列是否足够合并，不仅检查当前数据是否可以放到内存队列中，还会判断内存队列的数据加上拿去队列（takeList）中的数据是否大于内存队列大小，如果大了，就不能放了。这是为了防止拿去数据出现错误时，或者sink挂了，进行事务回滚时内存队列空间不足的情况

拦截器链对发送的数据进行规则的过滤
channel selector选择将数据发送给哪个channel（会有多个channel，channel可以根据业务来创建），默认是replicating即备份，会把一份source发给两个channel，可以选择使用multiplexing（多路复用），需要配合拦截器使用，因为这个是根据数据的头信息配置的东西决定将数据发送给哪个channel
一个sink对应一个channel，一个channel可以对应多个sink所以channel通过sinkProcessor决定将数据发送给哪些sink
- default是一个channel只绑定一个sink
- failover 如果sink故障，可以发给另一个sink（这里会给多个sink设置优先级，如果选择的sink挂了，就会让下一个优先级的sink来抓取数据）
- 负载均衡的sink处理器，LoadBalancing，多个sink以轮询的方法抓取channel的数据，如果数据以流式传输，那么最终数据将会分散到多个sink中
- （面试的时候sinkProcessor可以是两个也可以是三个，看面试官怎么认为了，有的人觉得default不算一个）