exactly once VS at least once其实就是对非对齐barrier的理解。
exactly once: 当程序恢复时, 下游的算子已经出现过的状态不会再出现一次, 而是继续往下消费,出现新的状态。
at least once:上游source的偏移量在ck时就记录了,假设为a1。下游算子当某个分区barrier先到达时, 下游算子状态为b1(注意,它对应的偏移量是a1), 但是由于非对齐要继续消费数据, 偏移量会继续偏移。 当ck时偏移量为a2时,下游算子的状态会继续更新,变为b2,此时其它分区的barrier都到了,开始ck,记录的状态是b2(注意,它对应的偏移量是a2)。这样在恢复状态时, 会从上一次发生ck的地方重启,发生偏移量恢复、状态恢复,上游算子的偏移量还是a1, 但下游的状态却是b2, 导致a1消费到a2时还会出现状态b2, 这就是数据重复消费,状态也重复出现。
个人理解哈…