flume跨服务器采集数据:多个agent串联
前言
在大数据的采集中,我们常用Flume来进行数据的采集,一般的我们会从Web Server服务器中收集数据,将数据存储在另一台服务器的hdfs文件系统做离线分析或者sink到另一台服务器的kafka消息队列中做实时流式计算
示意图
两个agent串联
多个agent串联到一个agent
需求
- 第一个agent负责收集文件当中的数据,通过网络发送到第二个agent当中去
- 第二个agent负责接收第一个agent发送的数据,并将数据保存到hdfs上面去
注意:
两个agent不在同一个节点,端口要一样
注释
跨网络传输一定要先传到avro么,不能直接传到hdfs?
没法直接到hdfs上面去