利用斯坦福主题模型工具(stanford TMT)做LDA

本文介绍了如何使用Stanford Topic Modeling Toolbox(TMT)进行LDA主题模型构建,包括工具和数据准备、文本预处理、模型训练等步骤,并强调了在Windows系统下处理数据的注意事项。
摘要由CSDN通过智能技术生成

     LDA模型是主题模型(topic model)的一种,其特点是不考虑词与词之间的关系,因此用来凝聚中文主题也是合适的。LDA模型实质上考察的是词与主题,主题与文档之间的关系。现成的主题模型工具不多,主要包括stanford topic modeling toolbox(TMT)以及R的topic model包。此处我们介绍运用stanford TMT来凝聚主题。

    1、工具和数据准备

     当然,做一切准备之前,得下载TMT工具箱,下载地址为tmt-0.4.0.现在该工具已更新到0.4.0版,如果用的之前版本,要注意兼容性问题。

     TMT是用scala编写的,scala可以看做是JAVA的一个扩展,不过TMT的运行不需要配置scala,也不需要有scala语言的知识,有基础的编程知识即可。当然,scala是JAVA的,你可以不配置scala,但必须保证    你的电脑已经安装了JAVA 6SE及以上版本。

    数据准备上,如果你自己有已经清洗好的数据当然更好,得是CSV格式的,没有的话,我们暂时使用TMT自带的测试数据集

评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值