StreamSet的理解
持续使用了StreamSet软件一段时间,对其理解越来越深了,其软件命名为StreamSet,可简单翻译为流集合,的确,其软件正式流的集合,处理来自源的流集合,对流集合进行拆解,合并,转到下一个组件进行加工,然后再次流转,最终流向目的地。理解它的含义,就理解了其设计的初衷,也能从中领悟其用法设计的局限和目的。
Record集
记录来自各个源,ftp、http、redis等,来自这些源的有json,xml或其他各式迥异的文本或二进制,StreamSet支持很多种方式,列举如下:
- Avro
- Binary
- Datagram
- CSV,或按分隔符分隔的文本
- Json
- Protobuf
- SDC Record
- XML
Record包含头属性,其会自动设置源的一些特性,诸如文件名、http头等信息,你可以利用Javascript或表达式设置其他头属性。
Record集根据源的信息各式拆分的不同,可以形成单个Record或多个Record。
对多个流Record的拆分
可以理解为对这个Record集合数组的拆分吧,严格来说可能还是有区别,对于理解这就足够了。
之前也有涉及到,最重