StreamSets 的管道 在运行过程中,会记录某些组件的状态,那这会影响啥呢?
1、数据持久化
当你停止管道时, StreamSets会记录它停止位置时的处理组件的位置。当你重新启动管道时,它会从中断的地方继续。
有哪些组件会被保留状态呢?
以下是这些组件的列表:
- Amazon S3
- Azure Data Lake Storage Gen1
- Azure Data Lake Storage Gen2
- Directory
- Elasticsearch
- File Tail
- Google Cloud Storage
- Groovy Scripting
- Hadoop FS Standalone
- HTTP Client
- JavaScript Scripting
- JDBC Multitable Consumer
- JDBC Query Consumer
- Jython Scripting
- Kinesis Consumer
- MapR DB JSON
- MapR FS Standalone
- MongoDB
- MongoDB Oplog
- MySQL Binary Log
- Salesforce <
StreamSets的管道在运行时会记录组件状态,包括数据持久化。重置源组件可确保从头开始处理数据,如Kinesis Consumer需要特殊处理,涉及DynamoDB权限。在测试和数据采集问题时,重置管道状态至关重要。
订阅专栏 解锁全文
1215

被折叠的 条评论
为什么被折叠?



