主要通过一个数据采集与处理的案例来介绍Streamsets(3.13.0)的使用,主要将使用Edge数据流收集streamsets系统的日志和主机性能指标,通过收集数据流收集类数据并进行简单处理,发送至kafka中,性能指标数据入库数据流和日志数据入库数据流分别从kafka中消费数据,并将两类数据进行简单处理加载到数据库中。
**学习目的:**使用edge和streamset的数据互动,使用streamset进行分布式异步数据处理。

需要配置5个数据流,两个edge采集数据流,一个数据收集数据流,两个数据处理与入库数据流

(1)需要在数据采集的节点上部署安装Edge(不会使用的同学可以参照前面文章)。
(2)一个
本文通过一个实际案例介绍了如何使用StreamSets(3.13.0)进行数据采集与处理,包括配置Edge数据流收集系统日志和性能指标,数据处理后发送到Kafka,以及从Kafka消费数据并加载到数据库。总共涉及5个数据流,涵盖了Edge部署、Kafka和ES集群的使用,展现了StreamSets的分布式异步数据处理能力。
订阅专栏 解锁全文
2578

被折叠的 条评论
为什么被折叠?



