研读《基于Hadoop的海量业务数据分析平台的设计与实现》----flume的数据收集系统的设计

最新推荐文章于 2021-06-21 17:59:21 发布

lihong1191

最新推荐文章于 2021-06-21 17:59:21 发布

阅读量731

点赞数

分类专栏：毕业论文

本文链接：https://blog.csdn.net/lihong1191/article/details/51790342

版权

本文探讨了基于Hadoop的海量业务数据分析平台中，Flume如何用于数据收集系统设计。通过配置多个agent来处理不同类型的日志，确保数据的收集、预处理和传输至HDFS。Flume的配置涉及avro source、file channel和HDFS sink，以保证数据一致性与安全性。

摘要由CSDN通过智能技术生成

数据收集系统是基于应用服务器日志的数据收集系统，其目标就是实现数据的收集，预处理，分析进而展示的过程。使用各种产品进行数据展示的过程。在分布式的系统当中，日志中的同一服务器可能会记录多种多样的日志，同一个日志会记录在不同的服务器上。对于flume方式，每一台服务器上面会记录多种多样的日志，对于同一个APP1，会为其配置多个接收数据的agent来接收不同类型的日志文件。对于APP1和APP2中产生同种日志，每个服务器上有单独的agent接收以后会聚合到一个新的agent，最后把数据统一的传输到HDFS上面。其中流程如下图所示。

flume方式是指把实时的数据写入HDFS中，我们把flume做为数据传输的通道，flume需要创建自己的agent，支持LOG4J的写入的source只有avro source ,我们采用HDFS分布式文件系统做为数据存储系统，所以采用 HDFS sink ，为了保证数据的安全性，我们使用file channel的方式。做为数据传输的通道。

如何才能配置agent了，需要配置哪些参数呢？

如上图的配置做一些解释：

这里配置一个叫做agent-1的agent，包括avro source ，需要配置它的几个属性，type，bind和port，type表示的是source的类型即 avro source ，bind表示他监听的主机名或者IP,port表示监听的端口，bind和port加起来就是监听的应用服务器。

channel采用的是file-channel方式，file-chan

最低0.47元/天解锁文章

lihong1191

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
研读《基于Hadoop的海量业务数据分析平台的设计与实现》----flume的数据收集系统的设计

数据收集系统是基于应用服务器日志的数据收集系统，其目标就是实现数据的收集，预处理，分析进而展示的过程。使用各种产品进行数据展示的过程。在分布式的系统当中，日志中的同一服务器可能会记录多种多样的日志，同一个日志会记录在不同的服务器上。对于flume方式，每一台服务器上面会记录多种多样的日志，对于同一个APP1，会为其配置多个接收数据的agent来接收不同类型的日志文件。对于APP1和APP2中产生同
复制链接

扫一扫

专栏目录