Hudi 清理器的是怎么工作的?
官方译文:
- Hudi清理器的作用是在提交(commit)和增量提交(deltacommit)后运行,用于删除不再需要的旧文件。如果您正在使用增量拉取功能,请确保配置清理器以保留足够数量的最近提交以进行回溯。另一个考虑因素是为长时间运行的作业提供足够的时间来完成运行。否则,清理器可能会删除正在被作业读取或可能被作业读取的文件,导致作业失败。通常,默认配置为10,允许每30分钟运行一次的摄入任务保留长达5小时的数据。如果您更频繁地运行摄入任务,或者希望为查询提供更多运行时间,请考虑增加配置值:hoodie.cleaner.commits.retained。
Hudi官方原文链接:https://hudi.apache.org/cn/docs/faq_table_services