概率潜在语义分析(PLSA)

最新推荐文章于 2022-10-18 20:55:15 发布

Nstar-LDS

最新推荐文章于 2022-10-18 20:55:15 发布

阅读量1.2k

点赞数

分类专栏：机器学习笔记文章标签：机器学习统计学统计模型算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nstarLDS/article/details/106437240

版权

文章目录

基本概要
生成模型和共现模型
概率潜在语义分析的算法

基本概要

概率潜在语义分析是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。

模型最大的特点就是用隐变量表示话题。整个模型表示文本生成话题，话题生成单词，从而得到单词-文本共现数据的过程。假设每个文本由一个话题分布决定，每个话题由一个单词分布决定。

概率潜在语义分析受潜在语义分析的启发，1999年由Hofmann提出。最初用于文本数据挖掘，后来扩展至其他领域。

上面的说法比较抽象，下面采用更加具体的说法。给定一个文本集合（一句句的话），每个文本（一句话）讨论若干个话题，每个话题由若干个单词表示。对文本集合进行概率潜在语义分析，就能发现每个文本的话题，以及每个话题的单词。

这时候就可以发现似乎可以对上面的情况来进行概率统计建模了。首先有话题的概率分布，这个概率分布是无法探知但是确实存在的，就是隐变量；然后有给定话题下文本的条件概率分布；还有给定话题下单词的条件概率分布。概率潜在语义分析就是发现由隐变量表示的话题，就是潜在语义。

下面来建立具体的概率模型。

生成模型和共现模型

假设有单词集合 $W=\left\{w_{1}, w_{2}, \cdots, w_{M}\right\}$ ；文本集合 $D=\left\{d_{1}, d_{2}, \cdots, d_{N}\right\}$ ；以及话题集合 $Z=\left\{z_{1}, z_{2}, \cdots, z_{K}\right\}$

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
概率潜在语义分析(PLSA)

文章目录基本概要生成模型和共现模型概率潜在语义分析的算法基本概要概率潜在语义分析是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。模型最大的特点就是用隐变量表示话题。整个模型表示文本生成话题，话题生成单词，从而得到单词-文本共现数据的过程。假设每个文本由一个话题分布决定，每个话题由一个单词分布决定。概率潜在语义分析受潜在语义分析的启发，1999年由Hofmann提出。最初用于文本数据挖掘，后来扩展至其他领域。上面的说法比较抽象，下面采用更加具体的说法。给定一个文本集合（一句句的话），每
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。