lda主题模型困惑度_主题模型(四):LDA优化思路

本文探讨LDA模型的优化思路,包括使用Mallet和TF-IDF训练LDA模型。尽管Mallet在数据集上的表现不如传统模型,但TF-IDF的引入提高了模型的一致性并降低了困惑度。此外,文章提出了结合RNN和LDA以解决词序问题的现代方法。
摘要由CSDN通过智能技术生成

书接上回,我们在之前的三篇文章中,分别讲解了LDA的基本原理,LDA的Python实现以及LDA主题个数的选择和模型的可视化。在今天这篇文章中,我们来一起看看不同的LDA实现方法和以及目前LDA在学术界的现状(可能不是最新的技术,因为我也是学渣,哈哈哈哈哈)。


LDA作为2003年提出的技术,在现在看来,肯定存在一些问题的。传统的LDA模型中,使用词袋模型对文本建模,这种建模方式没有考虑到单词之间顺序的影响。‘我喜欢你’,‘你喜欢我’,这两句话在词袋模型中的表示是完全相同的,显然这是不合理的。词袋模型也只是考虑了词频的影响。但是,在实际情况中,‘自然语言处理’的频数一般很低,但是‘你’,‘我’,‘他’的频数很高,所以,使用词袋模型建模就会存在一些不合理的情况。那么在0202年,我们的科学家都想出了哪些解决办法呢?除了常规的LDA主题模型,还没有其他的模型生成方法呢?

使用Mallet和TF-IDF训练LDA模型

我们会使用两种不同的方式来实现LDA,分别是Mallet以及TF-IDF。我们会先使用Mallet实现LDA,后面会使用TF-IDF来实现LDA模型。

简单介绍下,Mallet是用于统计自然语言处理,文本分类,聚类,主题建模,信息提取,和其他的用于文本的机器学习应用的Java包。 别看听起来吓人,其实在Python面前众生平等。也还是一句话的事。就是下面这行代码了。gensim.models.wrappers.LdaMallet(mallet_path, corpus, 4, dictionary)
这里解释下m

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值