事情经过是这样的: 因为要将其他数据库中的数据导入到数仓中,然后就用Kettle来实现。一开始我在做全量插入时候,用到表输出,然后增量更新的时候,用的是INSERT/UPDATE。最后同步到数仓中的数据居然是成倍的。后来经过排查,这个三张表 我在数仓创建的时候,忘记帮它们添加主键,导致每次增量更新的时候,并没有UPDATE,而是直接插入了,就是因为没有主键。下次注意! 常见几种插入/更新的方法: pk 主键 truncate 清空 timestamp