Streaming Gibbs Sampling for LDA (SGS)

主要两个重点,分布式和流处理,其模型主要的思想和SVB是相同的,

 

流:后验作为先验,前n-1的数据后验作为n的先验,且只需要保存Nkv的值,加到β上。另有衰减参数,

 

分:参数服务器模式,Nkv作为全局参数,保存在中心服务器,worker计算结果后,返回并更新参数,异步更新,计算用到Nkv和Wt,以及α先验。

 

话题模型中需要的主要三个参数,分别是Nkd,Nkv,Nk,其中Nkv和分子有关(全局话题和单词的关系),第一个是话题和文档的关系,最后一个是全局k的分布,在处理分片数据的时候,我们关心Nkv,因为第一个不依赖其他分片,第三个不依赖本分片,第三个相关性最强,需要记录保存

 

实现:

初始化采用激进策略,第一次迭代使用后验进行采样,

使用参数服务器pyRpc,发布订阅模式;原子存储。

其他参数见论文。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值