Kafka Connect 简介
Kafka Connect是Kafka的开源组件,是用于将Kafka与外部系统(例如数据库,键值存储,搜索索引和文件系统)连接的框架。
使用Kafka Connect,您可以将现有的连接器实现用于常见的数据源和接收器,以将数据移入和移出Kafka。
源连接器
源连接器提取整个数据库,并将流表更新更新到Kafka主题。它还可以将来自所有应用程序服务器的指标收集到Kafka主题中,使数据可用于低延迟的流处理。
池连接器
池连接器将来自Kafka主题的数据传送到二级索引(例如Elasticsearch)或批处理系统(例如Hadoop)中,以进行离线分析。
Kafka Connect专注于往返于Kafka的数据流,使您更轻松地编写高质量,可靠和高性能的连接器插件。它还使框架能够做出使用其他框架难以实现的保证。当与Kafka和流处理框架结合使用时,Kafka Connect是ETL管道的组成部分。
Kafka Connect可以作为在单个计算机上运行作业的独立进程(例如,日志收集)运行,也可以作为支持整个组织的分布式,可伸缩,容错服务运行。这使它可以按比例缩小到开发,测试和小型生产部署,而进入的门槛低,运营开销低,并且可以扩大规模以支持大型组织的数据管道。
使用Kafka Connect的主要好处是:
- 以数据为中心的管道 –使用有意义的数据抽象将数据提取或推入Kafka。
- 灵活性和可伸缩性 –在单个节点上与面向流和批处理的系统一起运行,或扩展到组织范围的服务。
- 可重用性和可扩展性 –利用现有连接器或扩展它们以适应您的需求并缩短生产时间。
参考
https://docs.confluent.io/5.4.0/connect/index.html