python单词分配_python-如何在lda中的不同主题中改善单词分配

最新推荐文章于 2021-02-09 01:54:19 发布

小红姐产房故事

最新推荐文章于 2021-02-09 01:54:19 发布

阅读量158

点赞数

文章标签： python单词分配

本文链接：https://blog.csdn.net/weixin_28736355/article/details/113508580

版权

LDA及其缺点：LDA的想法是从语料库中发现潜在主题.这种无监督的机器学习方法的一个缺点是,您最终会遇到难以被人类解释的主题.另一个缺点是,您很可能最终会遇到一些通用主题,包括出现在每个文档中的单词(例如“简介”,“日期”,“作者”等).第三,您将无法发现根本不够呈现的潜在主题.如果只有1条关于板球的文章,则该算法将无法识别该文章.

为什么LDA不适合您的情况：

您正在搜索诸如板球这样的明确主题,并且想学习有关板球词汇的一些知识,对吗？但是,LDA将输出一些主题,您需要识别板球词汇才能确定例如话题5与板球有关. LDA通常会识别与其他相关主题混合在一起的主题.请记住,有以下三种情况：

>您对板球一无所知,但是您可以确定与板球有关的主题.

>您是板球专家,并且已经知道板球词汇

>您对板球一无所知,也无法识别LDA产生的语义主题.

在第一种情况下,您将遇到一个问题,即您可能会将单词与相关联,而实际上与to无关,因为您依靠LDA输出来提供仅与相关的高质量主题,而没有其他相关主题或通用术语.在第二种情况下,您首先不需要分析,因为您已经知道板球词汇！当您依靠计算机解释主题时,可能出现第三种情况.但是,在LDA中,您始终依靠人类对输出进行语义解释.

那么该怎么做：有一篇名为Targeted Topic Modeling for Focused Analysis (Wang 2016)的论文,该论文试图确定哪些文档与预定义主题(例如板球)有关.如果您有想要获取一些特定主题词汇表的主题列表(板球,篮球,浪漫喜剧等),那么您可以首先确定相关文档,然后进行分析,与某个主题相关的文档的分发.

请注意,也许有完全不同的方法可以完全满足您的需求.如果您想保留与LDA相关的文献,我相对相信我所链接的文章是您的最佳选择.

编辑：

如果这个答案对您有用,您也许会发现my paper也很有趣.它采用一个带有标签的学术经济学论文数据集(600个可能的标签),并尝试各种LDA风格以对新的学术论文获得最佳预测.回购包含我的代码,文档以及论文本身