【python笔记】关于LDA可视化的参数lambda

最新推荐文章于 2024-04-28 13:49:58 发布

Lucilla1027

最新推荐文章于 2024-04-28 13:49:58 发布

阅读量1k

点赞数 1

分类专栏： Python学习笔记文章标签：笔记 python

本文链接：https://blog.csdn.net/slxii/article/details/130897227

版权

Python学习笔记专栏收录该内容

20 篇文章 2 订阅

订阅专栏

论文做到了LDA可视化

放一张效果图叭

在这里插入图片描述主要讲讲右上角那个参数

在pyLDAvis可视化结果中，右上角的参数是指lambda值。这个参数控制着文档中的词语权重和主题词语权重之间的比例。当lambda值趋近于0时，只有主题词语权重被考虑，而当lambda值趋近于1时，只有文档中的词语权重被考虑。因此，选择合适的lambda值可以使得可视化结果更加符合实际情况。默认情况下，lambda值为0.6。用户可以通过滑动滑块来调整lambda值，以获得最佳的可视化效果。

在pyLDAvis中，lambda值是通过pyLDAvis.prepare()函数中的mds参数进行控制的。具体来说，mds参数是一个包含以下四个元素的列表：

X：文档-主题分布矩阵，每行代表一个文档，每列代表一个主题。
tdm：文档-词语矩阵，每行代表一个文档，每列代表一个词语。
vocab：词汇表，即所有词语的列表。
doc_lengths：每个文档包含的词语数量的列表。

在mds参数中，lambda值可以通过将X矩阵中每一列的值与tdm矩阵中每一行的值加权平均来计算得到。具体来说，计算过程如下：

def _job(X, Y, l1, l2):
    return ((X * l1 + Y * (1 - l1)) * l2 + Y * (1 - l2))

X = _job(doc_topic, topic_term, 1-lambda_value, lambda_value)
#其中，doc_topic和topic_term分别是主题-文档分布矩阵和主题-词语分布矩阵。
#lambda_value即为用户指定的lambda值。通过这样的方式，我们可以在可视化结果中控制词语权重和主题词语权重之间的比例。

pyLDAvis可视化结果中右上角的参数并不是TFIDF算法。

TFIDF算法是一种常用的文本特征提取方法，用于将文本转化为可用于机器学习算法的特征向量。
这个参数lambda的作用是调整主题-词语矩阵和文档-主题矩阵之间的关系，以获得更好的可视化效果。具体来说，当lambda值趋近于0时，主题-词语矩阵中的主题词语权重更重要，而当lambda值趋近于1时，文档-主题矩阵中的文档词语权重更重要。

———————————有其他想到的我会随时补充————————————

欢迎批评指正！！