Large-scale incremental processing using distributed transactions and notifications 论文阅读笔记
主要有2点:
- 事务提交细节(lock列,write列),相当于用 SI+锁 实现一致性(注意 Write Skew)
- 2PC 细节,故障恢复
需求:海量数据,随机读写,跨行事务(强一致性),高吞吐量,延迟无所谓
为什么 MapReduce 不能增量更新
参考 Ref[1]
原因是有些操作不可结合不可交换,需要计算的中间结果,不能增量更新,所以 MapReduce 要重新计算一遍整个 repo
这有个改进版 MapReduce:Incoop: MapReduce for incremental computations