概率潜在语义分析(PLSA)

基本概要

概率潜在语义分析是一种利用概率生成模型对文本集合进行话题分析无监督学习方法

模型最大的特点就是用隐变量表示话题。整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共现数据的过程。假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。

概率潜在语义分析受潜在语义分析的启发,1999年由Hofmann提出。最初用于文本数据挖掘,后来扩展至其他领域。

上面的说法比较抽象,下面采用更加具体的说法。给定一个文本集合(一句句的话),每个文本(一句话)讨论若干个话题,每个话题由若干个单词表示。对文本集合进行概率潜在语义分析,就能发现每个文本的话题,以及每个话题的单词。

这时候就可以发现似乎可以对上面的情况来进行概率统计建模了。首先有话题的概率分布,这个概率分布是无法探知但是确实存在的,就是隐变量;然后有给定话题下文本的条件概率分布;还有给定话题下单词的条件概率分布。概率潜在语义分析就是发现由隐变量表示的话题,就是潜在语义。

下面来建立具体的概率模型。

生成模型和共现模型

假设有单词集合 W = { w 1 , w 2 , ⋯   , w M } W=\left\{w_{1}, w_{2}, \cdots, w_{M}\right\} W={ w1,w2,,wM};文本集合 D = { d 1 , d 2 , ⋯   , d N } D=\left\{d_{1}, d_{2}, \cdots, d_{N}\right\} D={ d1,d2,,dN};以及话题集合 Z = { z 1 , z 2 , ⋯   , z K } Z=\left\{z_{1}, z_{2}, \cdots, z_{K}\right\} Z={ z1,z2<

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值