Flume实战
文章平均质量分 76
缘定三石
这个作者很懒,什么都没留下…
展开
-
日志采集框架Flume
在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示:1. 日志采集框架Flume1.1 Flume介绍1.1.1 概述u Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传原创 2017-07-19 10:53:51 · 445 阅读 · 0 评论 -
flume简介
一、flume简介1、用于日志收集2、高效收集、聚合、移动大量日志。架构简单灵活,数据流(动态计算)技术。3、在线分析应用。二、agent组件1.source来源,input2.channel通道,缓冲区 buffer3.sink沉出 output三、flume优点1.支持广泛的中央化存储(hdfs|hbase)2.当传入数据的速率超过可以将原创 2017-08-30 20:53:39 · 663 阅读 · 0 评论 -
Flume Agent 组件如何协同工作
如前所述,每个Flume代理由三个主要组件组成:source,channel和sink。在本节中,我们将介绍这些和其他组件以及它们如何协同工作。Source是从生成数据的其他应用程序接收数据的活动组件。有源产生数据本身,尽管这些来源主要用于测试目的。源可以收听一个或多个网络端口以接收数据或者可以从本地文件系统读取数据。每个源必须连接至少一个通道。源可以写入几个通道,根据一些标准将事件复制到所有原创 2017-08-30 21:00:28 · 2410 阅读 · 0 评论 -
Flume--failover sink processor
failover sink processor根据优先级从sink组中选择宿。具有最高优先级的接收器将写入数据直到其失败(接收器的故障甚至可能是因为下游代理在RPC陷阱的情况下死亡),然后选择组中其他接收器中具有最高优先级的接收器。选择不同的接收器才能在当前接收器写入数据失败时写入数据。这确保了当没有故障时,第二层上的所有代理都有一个从每个机器写入的接收器,并且只有在某些机器看到更多的传入数据时才原创 2017-08-30 21:07:32 · 1040 阅读 · 0 评论 -
Flume--Load Balancing Sink Processor
假设您有一个拓扑结构,其中第一层从数千个应用服务器接收数据,第二层在将数据推入HDFS之前通过Avro RPC从第一层接收数据。为简单起见,我们假设第一层有100个代理,第二层有4个。在最简单的拓扑中,每个第一层代理将有四个Avro Sinks将数据推送到每个二层代理。这样工作正常,直到其中一个二级代理失败。此时,配置为发送数据的接收端将不会发送任何数据,直到失败的二级代理重新联机。除了这个接原创 2017-08-30 21:12:42 · 650 阅读 · 0 评论 -
Flume --文件通道(file channel)
文件通道是Flume的持久通道。它将所有事件写入磁盘,因此不会丢失进程或机器关机或崩溃的数据。文件通道可确保任何提交到通道的事件只有在接收到事件并提交事务时才会从通道中删除,即使机器或代理程序崩溃并重新启动。它被设计为高度并发,同时处理多个source和sink。 文件通道设计用于需要数据持久性和不能容忍数据丢失的情况。由于通道将数据写入磁盘,因此不会在数据崩溃或失败时丢失数据。由于将原创 2017-08-31 08:44:17 · 9183 阅读 · 0 评论