LDA漫游指南阅读笔记--Gibbs采样

Gibbs采样公式:LDA并行考虑:列 某文章的单词A依赖于另外一个文章相同单词A采样后修改的nw,nwsum行 同一篇文章的后一个单词依赖于前一个单词修改后的nd,ndsum主题 同一个主题后一次采样依赖于同一个主题前一次采样的nwsum解决方案:1. AD-LDA 按行进行拆分,nd,ndsum拆分到各台机器, nw,nwsum被完全copy到各台机器.各个节点一轮执行完毕后,进行一次merg...
摘要由CSDN通过智能技术生成

Gibbs采样公式:



LDA并行考虑:

列 某文章的单词A依赖于另外一个文章相同单词A采样后修改的nw,nwsum
行 同一篇文章的后一个单词依赖于前一个单词修改后的nd,ndsum
主题 同一个主题后一次采样依赖于同一个主题前一次采样的nwsum


解决方案:

1. AD-LDA 按行进行拆分,nd,ndsum拆分到各台机器, nw,nwsum被完全copy到各台机器.各个节点一轮执行完毕后,进行一次merge.


   缺点: 1) nw,nwsum互不知道其他机器的存在进行采样,会带来误差; 2)nw内存空间浪费
2. Spark-lda 转换成wordid排序后,只有同一行和同一列的会存在依赖,其他可以采用对角线法组内并行组间串行的方法。在切分时如果不够均衡可以采用随机交换行列的方式找各块差距最大值最小的那一次。整个算法中nwsum肯定会有冲突也就是这个算法的误差所在。采用global update的方法,每台机器merge back。 之后同一个单词的nw和同一个文档的nd统计量合并(spark中采用broadcast的方法)。该算法混淆度已经能和单机差不多。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值