多IDC数据时序问题及方法论

最新推荐文章于 2024-08-23 21:42:58 发布

fengxinze

最新推荐文章于 2024-08-23 21:42:58 发布

阅读量639

点赞数

分类专栏： memcache&分布式文章标签：技术人架构设计设计模式新浪微博 twitter 工作

memcache&分布式专栏收录该内容

22 篇文章 0 订阅

订阅专栏

转自：http://timyang.net/architecture/method/

上一周在微博架构与平台安全演讲中提到多IDC及架构设计的方法，由于最近工作中经常碰到这种情况，再举一个小案例补充一下。

Web数据访问比较好的设计模式是使用cursor方式（参考前文用Twitter的cursor方式进行Web数据分页），原理上相当于增量方式访问数据，可以极大提高访问性能。

在单IDC场景中，如图1，系统的id是递增，假设用户上一次访问最新一条记录是1002，则本次访问最佳的方式是 get?cursor=1002，可以高效取到后面3条新记录。

多IDC场景，看图2，假设白色背景属于Region 1，灰色背景属于Region 2, 由于两地同步有延迟，这样在Region 1中1001和1003来到时间较晚，排在本地数据1002和1004后面。假设用户上一次也是取到最新一条是1002(注意此时1001没取到，因为从外地未同步过来)。在Region 1调用 get?cursor=1002返回结果会得到什么？从数据库角度来看，访问cursor=1002 只会取到id>1002的记录，而上次未取到的1001即使已经同步过来是永远不会返回了。这样就产生了数据一致性问题，1001丢了。另外一个机房Region 2调用也产生类似问题。不同的cursor产生不同的丢失问题。

提出这个问题后身边很多技术人员非常感兴趣，经常走在路上被拦住介绍他们突然想到的一种更巧妙的解决方法。部分思路如下
(这里先不考虑ID递增算法如何实现，多IDC使用K-SORT方式递增也是比较容易的)

例外的方式，把迟到的id都存下来
补方式，把cursor往前多取一点，宁滥毋缺
快照方式，最近取的记录都存下来，这样服务器内部知道这个cursor上次哪些id取了哪些没取

大部分方法貌似都能工作，但都有问题或不完美，更重要的一点，也就是上周演讲中提到的，架构要把复杂的问题抽象简单，很多技术人员面对这个问题，并没有深层次思考这个场景的问题本质是什么，因此虽然匆匆考虑了很多复杂的解决方案，但是没有完美解决问题。

有兴趣的朋友可以继续思考，看能否将复杂的问题抽象简单并解决？

注：其中一条讲到了问题本质，思路总结如下：

（个人观点：全局的时序讨论在此背景变得没有意义，核心问题保持各IDC的最新达到数据的正确返回）

在新浪微博上面有更多讨论及留言，有兴趣可以去围观。http://t.sina.com.cn/10503/zF0tex7z7b(需登录)

玄了个澄的：在没有中控协调的情况下，各idc独立编号只能表示数据的唯一性，对时序性没有价值。一个前提是用户必须能及时看到本idc的最新更新，那么可以在全局id之外，按数据产生或接收到的顺序赋予本地id，按本地id排序。一切妄图建立全局时效顺序的企图都将导致本地数据无法及时呈现 (2010-11-24 22:55)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
多IDC数据时序问题及方法论

转自：http://timyang.net/architecture/method/上一周在微博架构与平台安全演讲中提到多IDC及架构设计的方法，由于最近工作中经常碰到这种情况，再举一个小案例补充一下。Web数据访问比较好的设计模式是使用cursor方式（参考前文用Twitter的cursor方式进行Web数据分页），原理上相当于增量方式访问数据，可以极大提高访问性能。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。