LDA模型是主题模型(topic model)的一种,其特点是不考虑词与词之间的关系,因此用来凝聚中文主题也是合适的。LDA模型实质上考察的是词与主题,主题与文档之间的关系。现成的主题模型工具不多,主要包括stanford topic modeling toolbox(TMT)以及R的topic model包。此处我们介绍运用stanford TMT来凝聚主题。
1、工具和数据准备
当然,做一切准备之前,得下载TMT工具箱,下载地址为tmt-0.4.0.现在该工具已更新到0.4.0版,如果用的之前版本,要注意兼容性问题。
TMT是用scala编写的,scala可以看做是JAVA的一个扩展,不过TMT的运行不需要配置scala,也不需要有scala语言的知识,有基础的编程知识即可。当然,scala是JAVA的,你可以不配置scala,但必须保证 你的电脑已经安装了JAVA 6SE及以上版本。
数据准备上,如果你自己有已经清洗好的数据当然更好,得是CSV格式的,没有的话,我们暂时使用TMT自带的测试数据集