mallet 简析 1

本文简要分析了Mallet实现LDA的主题建模过程,包括文档转换为Mallet格式、模型初始化、训练过程及采样细节。重点介绍了如何随机分配话题,并通过ParallelTopicModel进行模型训练。
摘要由CSDN通过智能技术生成

    

         最近一直在学习LDA 看来blei的C代码和matlab代码,matlab 的速度真是慢的不行,找到了MALLET ,想看详细分析,可惜网上大都是mallet的使用,自己就按照自己的理解把其过程简要的写出来。mallet 网址: http://mallet.cs.umass.edu/topics.php

          数据下载网址: http://www.nsf.gov/awardsearch/download.jsp

          其中topic-modeling-tool (http://code.google.com/p/topic-modeling-tool/ )是实现LDA过程的一个界面程序,配置好环境之后,运行界面如下:

    1、 在TopicModelingTool.java  的 m.invoke(null, passeArgs) 处将要处理的文档整合为mallet文件,文档的处理在自己没有选择stopword文件的时候去掉默认的stopword。 并对单词进行编号。

    2、在vectors2Topics.java 的 403 行的  training = InstanceList.load (new File(inputFile.value)); 读入数据ÿ

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值