基于gibbsLDA的文本分类

之前几篇文章讲到了文档主题模型,但是毕竟我的首要任务还是做分类任务,而涉及主题模型的原因主要是用于text representation,因为考虑到Topic Model能够明显将文档向量降低维度,当然TopicModel可以做比这更多的事情,但是对于分类任务,我觉得这一点就差不多了。

 

LDA之前已经说到过,是一个比较完善的文档主题模型,这次试用的是JGibbsLDA开源的LDA代码做LDA的相关工作,简单易用,用法官网上有,也可以自行谷歌。

 

按照官网上的参数和格式规范,就可以训练生成语料相关的结果了,一共会产生以下几个文件:

  1. model-final.twords:topic-word,也就是每个主题对应的单词分布
  2. model-final.others:LDA的一些参数
  3. model-final.phi该文件是一个主题数×词数量的矩阵
  4. model-final.tassign:这个是统计文档单词的tf-idf
  5. model-final.theta:这个就是我们需要的,表示文档对应的主题概率
  6. wordmap.txt:这个是用来统计单词词频

当然我们需要用到的是model-final.theta这个文件,并将它作为文档神经网络分类器的输入文章向量;

 

然后开始我们的实验:

实验语料:20_newsgroups,包含20类的分类新闻,并将测试集和训练集按照1:1分开

实验环境:JDK1.8 windows7 

使用LDA开源工具:JGibbsLDA

分类器使用:100*300*20的简单三层神经BP神经网络,神经网络的工具选取的是JOONE

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值