研读《基于Hadoop的海量业务数据分析平台的设计与实现》----flume的数据收集系统的设计

本文探讨了基于Hadoop的海量业务数据分析平台中,Flume如何用于数据收集系统设计。通过配置多个agent来处理不同类型的日志,确保数据的收集、预处理和传输至HDFS。Flume的配置涉及avro source、file channel和HDFS sink,以保证数据一致性与安全性。
摘要由CSDN通过智能技术生成

数据收集系统是基于应用服务器日志的数据收集系统,其目标就是实现数据的收集,预处理,分析进而展示的过程。使用各种产品进行数据展示的过程。在分布式的系统当中,日志中的同一服务器可能会记录多种多样的日志,同一个日志会记录在不同的服务器上。对于flume方式,每一台服务器上面会记录多种多样的日志,对于同一个APP1,会为其配置多个接收数据的agent来接收不同类型的日志文件。对于APP1和APP2中产生同种日志,每个服务器上有单独的agent接收以后会聚合到一个新的agent,最后把数据统一的传输到HDFS上面。其中流程如下图所示。



flume方式是指把实时的数据写入HDFS中,我们把flume做为数据传输的通道,flume需要创建自己的agent,支持LOG4J的写入的source只有avro source ,我们采用HDFS分布式文件系统做为数据存储系统,所以采用 HDFS  sink ,为了保证数据的安全性,我们使用file channel的方式。做为数据传输的通道。


如何才能配置agent了,需要配置哪些参数呢?


如上图的 配置做一些解释:

这里配置一个叫做agent-1的agent,包括avro source ,需要配置它的几个属性,type,bind和port,type表示的是source的类型即 avro source ,bind表示他监听的主机名或者IP,port表示监听的端口,bind和port加起来就是监听的应用服务器。

channel采用的是file-channel方式,file-chan

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值