大规模数据分发算法

message_distribution 

https://github.com/xdc427/message_distribution.git

这是个消息转发存储的算法,当一条消息需要转发给很多不同的人时,转发所需要的存储空间随着人数增加而增加,例如大的群组,微博的转发等,当然有些推拉结合的方式来解决一些问题,但在此处实现了一种转发的压缩算法,纯粹推,相当简洁,

这个算法分两个部分,第一部分是,实际信息流的排列。到达单个服务器的信息按时间先后顺序赋予一个单调递增的id(不考虑信息的转发)。这个容易理解,就是后到的信息id越大,且id不会重复,id为64bit。

第二部分是信息如何转发到每个人,考虑服务器有这样一个序列id1,id2,id3,...,id1000。然后任何人能收到的序列是这个序列的一个子集。考虑person1收到这样一个消息序列id1,id2,id50,id1000.如果直接存储需要4×64=256bit,这是个稀疏序列,新的编码方式是,首先存储起始id,就是id1,然后存储第一个连续id的长度是2,然后存储间隔长度47,然后依次往下,是这个样子:id1,2,47,1,949,1.需要64+2+6+1+10+1=84(没包含一些附加控制位,但也不会增加多少),可以看到主要的比特都是起始id占用的,如果序列更长的话压缩率会更高。其实可以观察到编码消息的bit与(ln(间隔长度)/ln(2))成正比,因为长度是二进制编码power(2,bit数)=间隔长度。也就是说消息的传播范围越广消耗的bit数越少。因为是与间隔长度的log成正比,所以就算很稀疏开销也会增加很慢,远小于64bit。

喜欢的话给星星哦

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值