
Flume
qq_43193797
github:https://github.com/yanjie666
展开
-
新增多个 Flume 实例后,Kafka 数据重复消费问题处理
文章转载自:https://blog.csdn.net/hejiangtju/article/details/80364388我们使用 Flume 将数据从 Kafka 加载到 Hive 中。由于启动一个 Flume 实例时,数据加载的速度只能达到 10MB/秒 (每条Kafka记录100B)。于是我们计划启动多个 Flume 实例 (指定同一个消费者组名称)。我们知道 Kafka 数据消费是以 Partition 为单位的,即一个 Partition 只能被一个 Flume 实例消费。当启动第二个转载 2020-10-23 14:00:08 · 716 阅读 · 0 评论 -
启动flume后,如何查看flume进程跑的是哪个agent
如下启动flume: bin/flume-ng agent -conf-file conf/log-ana.config --name a1&通过ps -aux | grep flume,看不处理是跑的哪个agent原创 2020-02-28 21:01:11 · 2104 阅读 · 0 评论 -
Flume Sink、Sink运行器、Sink组和Sink处理器
Sink运行器(Sink Runner)运行一个Sink组(Sink Group),Sink组可以含有一个或多个Sink。如果组中只存在一个Sink,那么没有组将会更有效率。Sink运行器仅仅是一个询问Sink组(或Sink)来处理下一批事件的线程。每个Sink组有一个Sink处理器(Sink Processor),处理器选择组中的Sink之一去处理下一个事件集合。每个Sink只能从一个Cha...原创 2019-03-19 15:50:25 · 725 阅读 · 0 评论 -
Flume Source、Channel处理器、拦截器和Channel选择之间的交互
接收事件; 处理事件; 将事件传递给拦截器链; 将每个事件传递给Channel选择器; 返回写入事件的Channel列表; 将所有事件写入每个必需的Channel,只有一个事务被打开;对于每个Channel,所有事件都写为事务的一部分; 利用可选Channel重复相同动作。Flume本身不限制Agent中Source、Channel和Sink的数量。因此Flume Sour...原创 2019-03-19 15:34:26 · 901 阅读 · 0 评论 -
Flume采集系统组件解析
1. SourceAvro Source侦听Avro端口并从外部Avro客户端流接收事件。当与另一个(上一跳)Flume代理的内置Avro Sink配对时,它可以创建分层收集拓扑。Taildir Source在Flume1.7之前如果想要监控一个文件新增的内容,我们一般采用的source 为 exec tail ,但是这会有一个弊端,就是当你的服务器宕机重启后,此时数据读取还是从头开...原创 2019-03-19 15:30:21 · 223 阅读 · 0 评论 -
Flume 入门
将本地数据从本地导入到HDFS上,其实可以利用IO流的形式,在Inputformat中读取文件,作为输入,在Mapper中输出即可。而Flume就是提供类似功能的框架。一、Flume 简介1) Flume 提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务, Flume 只能在 Unix 环境下运行。2) Flume 基于流式架构,容错性强,也很灵活简单。3)...原创 2019-01-16 16:20:55 · 256 阅读 · 0 评论 -
Flume之企业面试题
1 你是如何实现Flume数据传输的监控的使用第三方框架Ganglia实时监控Flume。2 Flume的Source,Sink,Channel的作用?你们Source是什么类型?1、作用 (1)Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence ...原创 2019-01-21 12:14:52 · 3834 阅读 · 4 评论 -
Flume之自定义 source
Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。官方提供的source类型已经很多,但是有时候并不能满足实际开发当中的需求,此时我们就需要根据实...原创 2019-01-21 12:12:16 · 595 阅读 · 0 评论 -
Flume 监控之 Ganglia
Ganglia 是 UC Berkeley 发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用....原创 2019-01-21 12:04:21 · 193 阅读 · 0 评论 -
Flume企业开发案例
案例一:实时监控 Hive 日志,并上传到 HDFS 中 案例二:实时读取目录文件到 HDFS 案例三: 单数据源多出口案例(选择器)案例四:单数据源多出口案例(Sink组)一个channel连接多个sink,这些sink可以属于一个组,则这个组中的sink实现负载功能...原创 2019-01-21 11:57:21 · 341 阅读 · 0 评论 -
Flume相关组件介绍(面试常问)
1 数据流模型2.为什么使用Flume3.Flume组成架构4.FlumeAgent内部原理 Flume EventFlume Event 是数据流的基本单元它由一个装载数据的字节数组(byte payload)和一系列可选的字符串属性来组成(可选头部).Flume agent一个 Flume agent 就是一个 JVM 进程, 他包含一些...原创 2019-01-21 10:53:48 · 1495 阅读 · 0 评论 -
Flume之source分类
Flume 不仅仅局限于日志文件的聚集.因为数据源可以自定义, Flume 可以用来传输大量的事件数据(event data), 比如: 网络流量数据(network traffic data), 社交媒体产生的数据(social-media-generated data), 电子邮件信息(email messages)和其他任何可能的数据源.1.avro source监听Avro端口...原创 2019-01-21 09:25:04 · 772 阅读 · 0 评论 -
Flume架构中的三层设计
Flume采用了三层架构,分别为agent,collector和storage,每一层均可以水平扩展。其中,所有agent和collector由master统一管理,这使得系统容易监控和维护,且master允许有多个(使用ZooKeeper进行管理和负载均衡),这就避免了单点故障问题。1)Agent层:这一层包含了Flume的Agent组件,与需要传输数据的数据源连接在一起2)Colle...原创 2019-01-19 11:10:54 · 4553 阅读 · 2 评论 -
Flume的可靠性级别
end-to-end收集数据agent首先将event写到磁盘上,当数据传送成功后,再删除;如果数据发送失败,可以从新发送。Store on failure这也是scribe采用的策略,当数据接收方crash时,将数据写到本地,待恢复后,继续发送。Best effort不经写入磁盘而直接转发给下一条 ...原创 2019-01-19 11:03:57 · 518 阅读 · 0 评论