LDA概念辨析(词分布与关键词权重TF-IDF)

众所周知,LDA——隐狄利克雷分布作为一个“生成模型”,可以随机生成一篇文章。而我们在求一篇文章的关键词的时候,要涉及到这篇文章的主题分布和词分布。而我们进行具体的主题分布以及词分布计算的时候,我们会先将文档的词项(term)进行TF-IDF处理。我下面对TF-IDF和词分布的概念加以辨析。


TF-IDF是一种衡量某一篇文档中某个词对该篇文档重要程度的计算方法。通过TF-IDF公式,我们可以计算出这个词对于表现这篇文档主题而言贡献如何

请看公式:

TF-IDF(word-weight) = TF * IDF = \frac{N_{A}}{N} * ln\frac{\left | D \right |}{\left | D_{A} \right |+1}

NA:该文档词项A的总数;   N:该文档总词数。

|DA|:出现了词项A的所有文档的总数;    |D|:该语料库所含的所有文档总数。

IDF分母+1是为了防止|DA| = 0时公式出错。

  • 从公式看得出,一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.
  • 举个例子:例如,两篇文章P、Q,P中最多的词为“NBA”和“凯尔特人”;Q中最多的词为“NBA”和“骑士”,很显然我们应该用“凯尔特人”和“骑士”这两个词去区分这两篇文档,得知这两篇文档在分别谈论凯尔特人队和骑士队。而TF-IDF也的确是这样做的。“NBA”这个词在两篇文档里的出现频率均很高,即TF(term frequency)很高;但由于这个词出现的“过于分散”,不及“凯尔特人”和“骑士”两个词出现得“精准”,所以“NBA”这个词的|DA|就很高,导致IDF(inverse document frequency)就很低,最终导致“NBA”这个词的权重word-weight较低,经TF-IDF计算我们认为其重要程度不及“凯尔特人”和“骑士”。

而词分布,详细的说应该叫“某一主题的词分布”,即确定的主题对应这一个确定的服从狄利克雷分布的词分布。

我们在生成一篇文档的一个词时候,应该是先从主题分布中采样得到一个主题;然后再从该主题对应的词分布中采样得到一个词,完成这篇文档中这个词的生成。


  • 综上,我个人的理解——TF-IDF更像是对文档的预处理,以获得更合理的更能代表这篇文档特点的向量。转化成文档向量后,我们可以依据权值大小进行关键字提取,也可以使用带权值的向量进行文档之间的“余弦相似度计算”,从而进行不同文档间的相似度分析;
  • 而词分布则是LDA生成模型中的一个多项分布。它和主题分布一起构成这个概率模型框架。由于文档的生成会涉及到词分布的采样,所以若我们提前把文档进行TF-IDF处理,则词分布采样出的词也是IT-IDF过后的向量。二者在过程上可以说是有先后之分的。
Gensim是一个流行的自然语言处理库,提供了一系列功能强大的工具,例如tf-idfLDA(潜在狄利克雷分布)模型。 TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于评估一个单相对于一个文档集合的重要程度的统计方法。它结合了单在文档中的频率(TF)和在整个文档集合中的稀有程度(IDF)。Gensim提供了tf-idf模型的实现,用于计算单tf-idf权重。该模型接受一个文档集合作为输入,并为每个单生成相应的tf-idf特征向量。这些特征向量可以用于文档相似度计算、查找关键词等任务。 LDA是一种概率模型,通常用于对文档集合进行主题建模。该模型根据文档的分布假设了主题的存在,并通过统计方法推断出每个文档的主题分布以及每个主题的分布。Gensim提供了LDA模型的实现,用于训练和推断LDA模型。该模型可以对文档集合进行聚类、主题提取等任务,并为每个文档和每个主题分配概率值。 结合tf-idfLDA模型,我们可以进行更复杂的文本分析任务。首先,使用tf-idf模型生成文档的tf-idf权重向量。然后,可以将这些权重向量作为输入数据用于训练LDA模型。通过这种方式,我们可以更准确地估计文档和主题之间的关系,并提取文档的主题分布。这在文本分类、信息检索和推荐系统等领域具有广泛的应用。 总之,Gensim提供了tf-idfLDA模型的实现,可以帮助我们处理和分析文本数据。通过利用这些模型,我们可以更好地理解文档集合中的单和主题之间的关系,从而提高我们的文本分析任务的效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_illusion_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值