主要两个重点,分布式和流处理,其模型主要的思想和SVB是相同的,
流:后验作为先验,前n-1的数据后验作为n的先验,且只需要保存Nkv的值,加到β上。另有衰减参数,
分:参数服务器模式,Nkv作为全局参数,保存在中心服务器,worker计算结果后,返回并更新参数,异步更新,计算用到Nkv和Wt,以及α先验。
话题模型中需要的主要三个参数,分别是Nkd,Nkv,Nk,其中Nkv和分子有关(全局话题和单词的关系),第一个是话题和文档的关系,最后一个是全局k的分布,在处理分片数据的时候,我们关心Nkv,因为第一个不依赖其他分片,第三个不依赖本分片,第三个相关性最强,需要记录保存
实现:
初始化采用激进策略,第一次迭代使用后验进行采样,
使用参数服务器pyRpc,发布订阅模式;原子存储。
其他参数见论文。