Source
rpc远程过程调用协议,客户机与服务机的调用模式需要对数据进行序列化。
1:客户机将参数序列化并以二进制形式通过网络传输到服务器。
2:服务器接收到后进行反序列化再调用方法获取返回值。
3:服务器将返回值序列化后再通过网络传输给客户机。
4:客户机接收到结果后再进行反序列化获取结果。
Avro source:
Avro就是一种序列化形式,avrosource监听一个端口只接收avro序列化后的数据,其他类型的不接收。
type:avrosource的类型,必须是avro。
bind:要监听的(本机的)主机名或者ip。此监听不是过滤发送方。一台电脑不是说只有一个IP。有多网卡的电脑,对应多个IP。
port:绑定的本地的端口。
Thrif source:
和avro一样是一种数据序列化形式,Thrifsource只采集thrift数据序列化后的数据
Exec source:
采集linux命令的返回结果传输给channel
type:source的类型:必须是exec。
command:要执行命令。
tail –f 若文件被删除即使重新创建同名文件也不会监听
tail -F 只要文件同名就可以继续监听
以上可以用在日志文件切割时的监听
JMS Source:
Java消息服务数据源,Java消息服务是一个与具体平台无关的API,这是支持jms规范的数据源采集;
Spooling Directory Source:通过文件夹里的新增的文件作为数据源的采集;
Kafka Source:从kafka服务中采集数据。
NetCat Source:绑定的端口(tcp、udp),将流经端口的每一个文本行数据作为Event输入
type:source的类型,必须是netcat。
bind:要监听的(本机的)主机名或者ip。此监听不是过滤发送方。一台电脑不是说只有一个IP。有多网卡的电脑,对应多个IP。
port:绑定的本地的端口。
HTTP Source:监听HTTP POST和 GET产生的数据的采集
Chanel
是一个数据存储池,中间通道,从source中接收数据再向sink目的地传输,如果sink写入失败会自动重写因此不会造成数据丢失。
Memory:用内存存储,但服务器宕机会丢失数据。
Typechannel的类型:必须为memory
capacity:channel中的最大event数目
transactionCapacity:channel中允许事务的最大event数目
File:使用文件存储数据不会丢失数据但会耗费io。
Typechannel的类型:必须为 file
checkpointDir :检查点的数据存储目录
dataDirs :数据的存储目录
transactionCapacity:channel中允许事务的最大event数目
SpillableMemory Channel:内存文件综合使用,先存入内存达到阀值后flush到文件中。
Typechannel的类型:必须为SPILLABLEMEMORY