基于gibbsLDA的文本分类

最新推荐文章于 2023-07-21 16:53:34 发布

luchi007

最新推荐文章于 2023-07-21 16:53:34 发布

阅读量4.5k

点赞数

分类专栏：自然语言处理主题模型文章标签：主题模型文本分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010223750/article/details/51334596

版权

之前几篇文章讲到了文档主题模型，但是毕竟我的首要任务还是做分类任务，而涉及主题模型的原因主要是用于text representation，因为考虑到Topic Model能够明显将文档向量降低维度，当然TopicModel可以做比这更多的事情，但是对于分类任务，我觉得这一点就差不多了。

LDA之前已经说到过，是一个比较完善的文档主题模型，这次试用的是JGibbsLDA开源的LDA代码做LDA的相关工作，简单易用，用法官网上有，也可以自行谷歌。

按照官网上的参数和格式规范，就可以训练生成语料相关的结果了，一共会产生以下几个文件：

model-final.twords：topic-word,也就是每个主题对应的单词分布
model-final.others：LDA的一些参数
model-final.phi：该文件是一个主题数×词数量的矩阵
model-final.tassign：这个是统计文档单词的tf-idf
model-final.theta：这个就是我们需要的，表示文档对应的主题概率
wordmap.txt：这个是用来统计单词词频

当然我们需要用到的是model-final.theta这个文件，并将它作为文档神经网络分类器的输入文章向量；

然后开始我们的实验：

实验语料：20_newsgroups，包含20类的分类新闻，并将测试集和训练集按照1:1分开

实验环境：JDK1.8 windows7

使用LDA开源工具：JGibbsLDA

分类器使用：100*300*20的简单三层神经BP神经网络，神经网络的工具选取的是JOONE

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。