![640?wx_fmt=gif](https://i-blog.csdnimg.cn/blog_migrate/0b6f51fb4d5242723e34f9bd130e59ad.gif)
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/b83486554e4b22d2c58d54f9c9e19776.jpeg)
导读
在上一篇推送中,为大家介绍了LDA的数学预备知识以及LDA主题模型,今天将带来有关LDA 参数估计和LDA代码的实现。
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/bce60c3404479633d547c6820ea475c1.jpeg)
来源: 星环科技
数据猿官网 | www.datayuan.cn
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/83b8987e7e8968c3982d716ec17d13d5.jpeg)
今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看点丨百度百家丨博客中国丨趣头条丨腾讯云·云+社区
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/deeb331cf8cb89d7b4390051b7b64078.png)
3
LDA 参数估计
在spark中,提供了两种方法来估计参数,分别是变分EM(期望最大)算法(见文献【3】【4】)和在线学习算法(见文献【5】)。下面将分别介绍这两种算法以及其源码实现。
3.1 变分EM算法
变分贝叶斯算法的详细信息可以参考文献【9】。
在上文中,我们知道LDA将变量theta和phi(为了方便起见,我们将上文LDA图模型中的beta改为了phi)看做随机变量,并且为theta添加一个超参数为alpha的Dirichlet先验,为phi添加一个超参数为eta的Dirichlet先验来估计theta和beta的最大后验(MAP)。 可以通过最优化最大后验估计来估计参数。我们首先来定义几个变量:
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/1d0b0b51606b7609e5adf27e6f84eb93.jpeg)
根据文献【4】中2.2章节的介绍,我们可以推导出如下更新公式,其中alpha和eta均大于1:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/1e75d91b455d49e9dbd8baf561445fc6.jpeg)
收敛之后,最大后验估计可以得到公式:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/792d5ab403547140ea8425b7cf295c08.jpeg)
变分EM算法的流程如下:
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/cb07dc8558bb03b6659c90c0b93cc8a7.jpeg)
第4.2章会从代码层面说明该算法的实现流程。
3.2 在线学习算法
3.2.1 批量变分贝叶斯
在变分贝叶斯推导(VB)中,根据文献【3】,使用一种更简单的分布q(z,theta,beta)来估计真正的后验分布,这个简单的分布使用一组自由变量(free parameters)来定义。 通过最大化对数似然的一个下界(Evidence Lower Bound (ELBO))来最优化这些参数,如下公式:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/a069cd389ec56e4689f29b7932668563.jpeg)
最大化ELBO就是最小化q(z,theta,beta)和p(z,theta,beta|w,alpha,eta)的KL距离。根据文献【3】,我们将q因式分解为如下的形式:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/f715c3f7a2adbb8af4a4cc6ec6d23523.jpeg)
后验z通过phi来参数化,后验theta通过gamma来参数化,后验beta通过lambda来参数化。为了简单描述,我们把lambda当作“主题”来看待。公式分解为如下形式:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/cda193eacd267d7d5debb94ce3f2fb27.jpeg)
我们现在将上面的期望扩展为变分参数的函数形式。这反映了变分目标只依赖于 ,即词w出现在文档d中的次数。当使用VB算法时,文档可以通过它们的词频来汇总(summarized),如公式:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/a767bde3b7601495d7235754da016ae2.jpeg)
上面的公式中,W表示词的数量,D表示文档的数量。l表示文档d对ELBO所做的贡献。L可以通过坐标上升法来最优化,它的更新公式如:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/4a3cbcee0c8002f7a7ab2f934eb95820.jpeg)
log(theta)和log(beta)的期望通过下面的公式计算:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/7b9baa90cc863cddaad85082d1e5057a.jpeg)
通过EM算法,我们可以将这些更新分解成E-步和M-步。E-步固定lambda来更新gamma和phi;M-步通过给定phi来更新lambda。批VB算法的过程如下所示:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/60de117a381c847441cd8a048b16aa69.jpeg)
3.2.2 在线变分贝叶斯
批量变分贝叶斯算法需要固定的内存,并且比吉布斯采样更快。但是它仍然需要在每次迭代时处理所有的文档,这在处理大规模文档时,速度会很慢,并且也不适合流式数据的处理。 文献【5】提出了一种在线变分推导算法。设定gamma(n_d,lambda)和phi(n_d,lambda)分别表示gamma_d和phi_d的值,我们的目的就是设定phi来最大化下面的公式:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/a9946cb1ad850c21f6e67a39f74c60f6.jpeg)
我们在算法2中介绍了在线VB算法。因为词频的第t个向量是可观察的,我们在E-步通过固定lambda来找到gamma_t和phi_t的局部最优解。 然后,我们计算lambda_cap。如果整个语料库由单个文档重复D次组成,那么这样的lambda_cap设置是最优的。之后,我们通过lambda之前的值以及lambda_cap来更新lambda。我们给lambda_cap设置的权重如公式所示:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/423618ce01b00d3b7a948970b62aed07.jpeg)
在线VB算法的实现流程如下算法2所示:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/eaa964a69128186599269c23cb97e651.jpeg)
那么在在线VB算法中,alpha和eta是如何更新的呢?参考文献【8】提供了计算方法。给定数据集,dirichlet参数的可以通过最大化下面的对数似然来估计:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/a5fdbf02d217dc90d1ddbb20a909ff2c.jpeg)
其中
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/f7f805ecb0b035334cecf6d23d1a4978.jpeg)
有多种方法可以最大化这个目标函数,如梯度上升,Newton-Raphson等。Spark使用Newton-Raphson方法估计参数,更新alpha。Newton-Raphson提供了一种参数二次收敛的方法, 它一般的更新规则如下公式:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/784082ba7d9bb311d2bcc4cc93441471.jpeg)
其中,H表示海森矩阵。对于这个特别的对数似然函数,可以应用Newton-Raphson去解决高维数据,因为它可以在线性时间求出海森矩阵的逆矩阵。一般情况下,海森矩阵可以用一个对角矩阵和一个元素都一样的矩阵的和来表示。 如下公式,Q是对角矩阵,C11是元素相同的一个矩阵。
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/fc4ee6423853b8fc51ef7d286b846371.jpeg)
为了计算海森矩阵的逆矩阵,我们观察到,对任意的可逆矩阵Q和非负标量c,有下列式子:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/110dea389de0c8d2ea0f63330345245f.jpeg)
因为Q是对角矩阵,所以Q的逆矩阵可以很容易的计算出来。所以Newton-Raphson的更新规则可以重写为如下的形式:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/4bac2dd7aeffa0021583907ad5fad50c.jpeg)
其中b如下公式:
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/3813b01bbdebce0e5fdb7abe45be3142.jpeg)
4
LDA代码实现
4.1 LDA使用实例
我们从官方文档【6】给出的使用代码为起始点来详细分析LDA的实现。
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/eabe2bd77b9f8f0b2c5287abdf218ad9.jpeg)
以上代码主要做了两件事:加载和切分数据、训练模型。在样本数据中,每一行代表一篇文档,经过处理后,corpus的类型为List((id,vector)*),一个(id,vector)代表一篇文档。将处理后的数据传给org.apache.spark.mllib.clustering.LDA类的run方法, 就可以开始训练模型。run方法的代码如下所示:
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/153ca665868a18f3e00b9887cc8deb20.jpeg)
这段代码首先调用initialize方法初始化状态信息,然后循环迭代调用next方法直到满足最大的迭代次数。在我们没有指定的情况下,迭代次数默认为20。需要注意的是, ldaOptimizer有两个具体的实现类EMLDAOptimizer和OnlineLDAOptimizer,它们分别表示使用EM算法和在线学习算法实现参数估计。在未指定的情况下,默认使用EMLDAOptimizer。
4.2 变分EM算法的实现
在spark中,使用GraphX来实现EMLDAOptimizer,这个图是有两种类型的顶点的二分图。这两类顶点分别是文档顶点(Document vertices)和词顶点(Term vertices)。
·文档顶点使用大于0的唯一的指标来索引,保存长度为k(主题个数)的向量
·词顶点使用{-1, -2, ..., -vocabSize}来索引,保存长度为k(主题个数)的向量
·边(edges)对应词出现在文档中的情况。边的方向是document -> term,并且根据document进行分区
我们可以根据3.1节中介绍的算法流程来解析源代码。
4.2.1 初始化状态
spark在EMLDAOptimizer的initialize方法中实现初始化功能。包括初始化Dirichlet参数alpha和eta、初始化边、初始化顶点以及初始化图。
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/721887af452ee66799fce44548926a53.jpeg)
上面的代码初始化了超参数alpha和eta,根据文献【4】,当alpha未指定时,初始化其为(50.0 / k) + 1.0,其中k表示主题个数。当eta未指定时,初始化其为1.1。
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/c585c5f6110dac669d9cc4d752d503c7.jpeg)
上面的这段代码处理每个文档,对文档中每个唯一的Term(词)创建一个边,边的格式为(文档id,词索引,词频)。词索引为{-1, -2, ..., -vocabSize}。
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/42881330f7a60da81e708bd5b11e11da.jpeg)
上面的代码创建顶点。我们为每个主题随机初始化一个值,即gamma是随机的。sum为gamma * edge.attr,这里的edge.attr即N_wj,所以sum用gamma * N_wj作为顶点的初始值。
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/0e141e852659e498cc76403d7fe18840.png)
上面的代码初始化Graph并通过文档分区。
4.2.2 E-步:更新gamma
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/12b62b0d3ffdd535731b5cd624c1a2bf.jpeg)
上述代码中,W表示词数,N_k表示所有文档中,出现在主题k中的词的词频总数,后续的实现会使用方法computeGlobalTopicTotals来更新这个值。N_wj表示词w出现在文档j中的词频数,为已知数。E-步就是利用公式去更新gamma。 代码中使用computePTopic方法来实现这个更新。edgeContext通过方法sendToDst将scaledTopicDistribution发送到目标顶点, 通过方法sendToSrc发送到源顶点以便于后续的M-步更新的N_kj和N_wk。下面我们看看computePTopic方法。
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/c886368eda17f73e0857aa869f384e5a.jpeg)
这段代码比较简单,完全按照公式**(3.1.6)**表示的样子来实现。val gamma_wjk = (N_w(k) + eta1) * (N_j(k) + alpha1) / (N(k) + Weta1)就是实现的更新逻辑。
4.2.3 M-步:更新phi和theta
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/7cf0249b698faa1f26be4528da0e57bc.png)
更新隐藏变量phi和theta就是更新相应的N_kj和N_wk。聚合更新使用aggregateMessages方法来实现。请参考文献【7】来了解该方法的作用。
4.3 在线变分算法的代码实现
4.3.1 初始化状态
在线学习算法首先使用方法initialize方法初始化参数值。
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/13b87a26e516af119ea6fc7b6a205434.jpeg)
根据文献【5】,alpha和eta的值大于等于0,并且默认为1.0/k。上文使用getGammaMatrix方法来初始化变分分布q(beta|lambda)。
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/15644c638f1f0118270ea9acaf2e604d.jpeg)
getGammaMatrix方法使用gamma分布初始化一个随机矩阵。
4.3.2 更新参数
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/732daadf95333c24921de75bea6dd437.jpeg)
以上的next方法首先对文档进行采样,然后调用submitMiniBatch对采样的文档子集进行处理。下面我们详细分解submitMiniBatch方法。
·1 计算log(beta)的期望,并将其作为广播变量广播到集群中
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/a2d3416bd622a774799967775e8a2d7e.jpeg)
上述代码调用exp(LDAUtils.dirichletExpectation(lambda))方法实现参数为lambda的log beta的期望。
·2 计算phi以及gamma,即算法2中的E-步
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/8ea4795eb755f4dbe9d4da3192ca222f.jpeg)
上面的代码调用OnlineLDAOptimizer.variationalTopicInference实现算法2中的E-步,迭代计算phi和gamma。
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/272c9afbee19f0fb728d2a4d1f166990.jpeg)
·3 更新lambda
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/32f40939d6c7c1c56ccd730cc1f48725.jpeg)
updateLambda方法实现算法2中的M-步,更新lambda。实现代码如下:
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/52dc02cb6cd41c17f8e63d5d97b532c4.jpeg)
·4 更新alpha
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/1d7b7c637924678ec6705379235d7d0d.jpeg)
数据猿读者亲启:
名企&大佬专访精选
向下滑动启阅
以下文字均可点击阅读原文
跨国外企:
谷歌大中华及韩国区数据洞察与解决方案总经理郭志明丨 IBM中国区开发中心总经理吉燕勇丨微软中国CTO官韦青丨前微软中国CTO黎江丨VMware中国区研发中心总经理任道远
中国名企:
前上海证券交易所副总裁兼CTO白硕丨携程商旅亚太区CMO 邱斐丨艾瑞集团CTO郝欣诚丨泰康集团大数据部总经理周雄志丨上海链家研究院院长陈泽帅丨蓝色光标首席数据科学家王炼
知名学者:
创业明星:
地平线机器人创始人兼CEO余凯丨天工科仪董事长王世金丨ZRobot CEO乔杨丨天眼查创始人兼CEO柳超丨第四范式联合创始人兼首席架构师胡时伟丨天云大数据CEO雷涛丨Kyligence联合创始人兼CEO韩卿丨数之联创始人兼CEO周涛丨明略数据董事长吴明辉丨91征信创始人兼CEO 薛本川丨智铀科技创始人、CEO及首席科学家夏粉丨易宝支付联合创始人兼总裁余晨丨海云数据创始人兼CEO冯一村丨星环科技COO佘晖丨碳云智能联合创始人兼首席科学家李英睿
知名投资人:
——数据猿专访部
(可上下滑动启阅)
![xmwebp](https://i-blog.csdnimg.cn/blog_migrate/d370bacd75bb45a7cda52534e562f0a2.png)
![640?wx_fmt=gif](https://i-blog.csdnimg.cn/blog_migrate/000892ba7af79ed246de73c3ceb70f35.gif)
▲向上滑动
采访/报道/投稿
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/f87401740f73f00e993f87e3f480ab37.jpeg)
yaphet.zhang@datayuan.cn
商务合作
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/74ff340c56d6977ac683cef5bec0b93b.jpeg)
18600591561(微信)
长按右方二维码
关注我们ˉ►
![640?wx_fmt=jpegwebp](https://i-blog.csdnimg.cn/blog_migrate/206cde387cb88d622963c4861b7e26ae.jpeg)