Source
Source用于从外部系统或其他Agent(或自身产生)接收数据。并将数据写入到一个或多个cahnnel中。
Source可以接受任何来源的数据。
Source需要通过配置文件配置,保证至少有一个Channel连接,有一个定义type的参数。
生命周期
系统配置一旦验证通过,source就会被实例化,并且由ConfigurationProvider进行配置。
如果缺少配置或者缺少需要的参数,这个source就会被屏蔽。
source一旦成功配置,Flume的生命周期管理系统将会尝试启动Source,只有Agent自身停止或被杀死,或Agent被用户重新分配,source才会停止。
Avro Source
Avro Source是高可扩展的RPC服务器端。可以从其他的Flume Agent的 Avro Sink或者使用FlumeSDK发送数据的客户端应用,接收数据到一个Flume Agent。
Avro Source 和 Avro Sink 的组合代表Agent之间的通讯原理。
Avro Source的可扩展性结合channel担当了缓冲器的角色。使Flume Agent能够处理负载峰值。
配置参数 (加粗为必传项) | 默认值 | 描述 |
---|---|---|
channels | – | |
type | – | 类型:avro |
bind | – | 绑定IP地址或主机名 |
port | – | 绑定端口 |
threads | – | 从客户端或Avro SInk传入的数据的最大工作线程数量 |
selector.type | 选择器类型 | |
selector.* | 选择器 | |
interceptors | – | 拦截器列表,空格分隔 |
interceptors.* | 拦截器 | |
compression-type | none | 用于解压缩传入数据的压缩格式,只支持zlib格式,若需要接收zlib压缩的数据,设置为“deflate” |
ssl | false | 将此设置为true以启用SSL加密。还必须指定“keystore” 和 “keystore-password”. 若设置为true,所有连接到Source的客户端都需要使用SSL。 |
keystore | – | 使用SSL的keystore路径。 |
keystore-password | – | 打开keystore使用的密码 |
keystore-type | JKS | keystore的类型. 可以使用 “JKS” or “PKCS12”. |
exclude-protocols | SSLv3 | Space-separated list of SSL/TLS protocols to exclude. SSLv3 will always be excluded in addition to the protocols specified. |
ipFilter | false | Set this to true to enable ipFiltering for netty |
ipFilterRules | – | Define N netty ipFilter pattern rules with this config. |
Avro Source使用Netty服务器来处理传入的请求,Netty使用java的非阻塞IO,保证了当netty服务器使用相对较少的线程来处理请求的高性能。
若compression-type参数设置为deflate,那么传入的数据必须被压缩,否则Source不能解析传入的数据。Sink或Flume客户端发送数据时,必须配置为压缩将要发送的数据。若压缩和未压缩的数据被传输到相同的Agent,agnet应该能运行两种Avro Source,一种用来接收压缩的数据,另一种用来接收未压缩的数据。
Avro Sink或Flume RPC客户端发送数据到Avro Source时,数据时分批被压缩的。而不是按照每个事件。这可以提供更好的压缩率,减少压缩时内存的使用情况。
RPC Source 失败的处理
1、参数错误:Source不会启动,在尝试启动时抛出异常。flume的配置系统会每隔几秒重启组件,若错误不再存在,将重新启动成功。其他绑定到该端口的进城被杀死或者释放端口。
2、Channel写满导致失败:会抛出ChannelException,或这次事务量太大,Source将会给客户端或Sink返回一个失败的状态。用来回调它并期望重试。因为RPC Source通过线程池中的线程接收数据,线程异常只能导致线程终止。
频繁抛出ChannelException意味着Channel分配远低于写入的速度,或者Sink清理Channel中数据不够快,可以适当增加Sink数量,但是需要考虑到最终目的地本身的负载情况。
不管什么情况,错误可能导致程序重复执行,但不会丢失数据,因为只有数据真正成功写入下一阶段,事件才会从管道中移除。