StreamSet的理解
持续使用了StreamSet软件一段时间,对其理解越来越深了,其软件命名为StreamSet,可简单翻译为流集合,的确,其软件正式流的集合,处理来自源的流集合,对流集合进行拆解,合并,转到下一个组件进行加工,然后再次流转,最终流向目的地。理解它的含义,就理解了其设计的初衷,也能从中领悟其用法设计的局限和目的。
Record集
记录来自各个源,ftp、http、redis等,来自这些源的有json,xml或其他各式迥异的文本或二进制,StreamSet支持很多种方式,列举如下:
- Avro
- Binary
- Datagram
- CSV,或按分隔符分隔的文本
- Json
- Protobuf
- SDC Record
- XML
Record包含头属性,其会自动设置源的一些特性,诸如文件名、http头等信息,你可以利用Javascript或表达式设置其他头属性。<
本文介绍了StreamSet工具的理解,强调了Record的概念及其来源。内容包括Record集的类型,如何对多个Record流进行拆分,针对单个Record字段的拆分,以及使用Javascript进行Record合并的方法。虽然没有找到内建的Record合并组件,但作者提供了使用Javascript作为解决方案的示例。
订阅专栏 解锁全文
3471

被折叠的 条评论
为什么被折叠?



