Flume架构及核心组件
1)Source 收集
2)Channel 聚集
3)Sink 输出
channel相当于一个通道,类似于一个数据的缓存池,提供一个数据临时存放的地方。在操作系统层面,写数据到磁盘,先会把数据写到内存里面,等内存满了之后,才会法内存里的数据flash到磁盘。(这样的好处就是减少直接与磁盘的交互次数,能够提升很大的性能的)
flume 把Source手机过来的数据指定一定的大小,先写到Channel里面,等Channel满了之后,在通过Sink写到目的地里面去
Sink的作用就是把数据从Channel里面读取出来,推送到目的地里面去
Setting multi-agent flow:设置多代理流程
In order to flow the data across multiple agents or hops, the sink of the previous agent and source of the current hop need to be avro type with the sink pointing to the hostname (or IP address) and port of the source.
为了跨多个代理或跳数据流,先前代理的接收器和当前跳的源需要是avro类型,接收器指向源的主机名(或IP地址)和端口。
Consolidation:合并
A very common scenario in log collection is a large number of log producing clients sending data to a few consumer agents that are attached to the storage subsystem. For example, logs collected from hundreds of web servers sent to a dozen of agents that write to HDFS cluster.
日志收集中非常常见的情况是大量日志生成客户端将数据发送到连接到存储子系统的少数消费者代理。例如,从数百个Web服务器收集的日志发送给写入HDFS集群的十几个代理
Flume架构及核心组件
最新推荐文章于 2023-02-26 16:48:19 发布