python单词分配_python-如何在lda中的不同主题中改善单词分配

LDA及其缺点:LDA的想法是从语料库中发现潜在主题.这种无监督的机器学习方法的一个缺点是,您最终会遇到难以被人类解释的主题.另一个缺点是,您很可能最终会遇到一些通用主题,包括出现在每个文档中的单词(例如“简介”,“日期”,“作者”等).第三,您将无法发现根本不够呈现的潜在主题.如果只有1条关于板球的文章,则该算法将无法识别该文章.

为什么LDA不适合您的情况:

您正在搜索诸如板球这样的明确主题,并且想学习有关板球词汇的一些知识,对吗?但是,LDA将输出一些主题,您需要识别板球词汇才能确定例如话题5与板球有关. LDA通常会识别与其他相关主题混合在一起的主题.请记住,有以下三种情况:

>您对板球一无所知,但是您可以确定与板球有关的主题.

>您是板球专家,并且已经知道板球词汇

>您对板球一无所知,也无法识别LDA产生的语义主题.

在第一种情况下,您将遇到一个问题,即您可能会将单词与相关联,而实际上与to无关,因为您依靠LDA输出来提供仅与相关的高质量主题,而没有其他相关主题或通用术语.在第二种情况下,您首先不需要分析,因为您已经知道板球词汇!当您依靠计算机解释主题时,可能出现第三种情况.但是,在LDA中,您始终依靠人类对输出进行语义解释.

那么该怎么做:有一篇名为Targeted Topic Modeling for Focused Analysis (Wang 2016)的论文,该论文试图确定哪些文档与预定义主题(例如板球)有关.如果您有想要获取一些特定主题词汇表的主题列表(板球,篮球,浪漫喜剧等),那么您可以首先确定相关文档,然后进行分析,与某个主题相关的文档的分发.

请注意,也许有完全不同的方法可以完全满足您的需求.如果您想保留与LDA相关的文献,我相对相信我所链接的文章是您的最佳选择.

编辑:

如果这个答案对您有用,您也许会发现my paper也很有趣.它采用一个带有标签的学术经济学论文数据集(600个可能的标签),并尝试各种LDA风格以对新的学术论文获得最佳预测.回购包含我的代码,文档以及论文本身

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值