flume简单总结
1:flume中 在同一个agent中从source到channel,从channel到sink每一步都有类似于事务的机制进行保障。在多个连起来的agent中,第一个agent的sink与第二个source之前也存在类似的事务机制。注:此处的agent是指source,channel,sink组成的一个单位。因此flume具有强可靠性,不会在agent的各个组件传输数据时产生数据丢失。但是如果agent异常退出或者机器挂掉的话,只要设置durable file channel就会将数据保存到磁盘上,启动之后数据还是可以恢复的。
2:如果想要写多个agent相连必须使用的source类型为Avro或者thrift。因为Avro和thrift可以指定被监视的IP地址和端口号
3:replicating and multiplexing 一个source对应多个渠道channel时的用途,一个source也可以有多个数据来源,例如:Avrosource可以监视roc发送到某一个IP地址端口的数据,只需多设置几个数据源向此IP端口发送数据即可。
4:一个source实例可以有多个channel(对应replication或者multiplexing功能可以实现了),但是一个sink只能对应一个channel
5:flume架构的拓扑结构
满足一个source可以有一个或多个数据来源,一个source可以有一个或多个channel渠道,其中多个渠道设计可以是为了备份也可以是为了根据条件分流到不同的sink都可以。一个sink只能对应一个channel