用Google搜索LDA topic模型代码似乎只有这个网址:http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm
比较靠谱。师弟在用,我这里大概讲一下。主要的就是参数的意思。
主要的函数是:
GibbsSamplerLDA( WS , DS , T , N , ALPHA , BETA , SEED , OUTPUT );
参数主要有WS,DS,T,剩下的都是一些不关键的数据。
WS表示的是Word的分布,DS表示的是Document的分布
假设我们有词典里面有8000个单词。
WS是一个1*10000的向量,那么WS里面min为1,max就是8000.
同样的DS也是一个1*10000的向量,这里的min为1,max表示的就是document的数量。
WS和DS是一一对应的,假设WS(1,9)=389,DSÿ