统计学习方法—概率潜在语义分析

概率潜在语义分析(PLSI)是一种无监督学习方法,用于文本话题分析。它通过概率生成模型揭示单词-文本的潜在话题结构。在生成模型中,文本由话题决定,话题由单词决定,而共现模型则描述了单词和文本的对称关系。PLSI的学习通常借助EM算法来估计模型参数。
摘要由CSDN通过智能技术生成

概率潜在语义分析

  概率潜在语义分析(probabilistic latent semantic analysis, PLSI),是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。模型的最大特点使用隐变量表示话题;整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共现数据的过程;假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。

概率潜在语义分析模型

  在前述的单词-文本矩阵的基础下,文本数据基于如下的概率模型产生(共现模型):首先有话题的概率分布,然后有话题给定条件下文本的条件概率分布,以及话题给定条件下单词的条件概率分布。
  概率潜在语义分析就是发现由隐变量表示的话题,即潜在语义。

生成模型

  • 简单例子:
    假设有:
    单词集合 W = { w 1 , w 2 , ⋯   , w M } W=\{w_1, w_2,\cdots, w_M\} W={ w1,w2,,wM}
    文本集合 D = { d 1 , d 2 , ⋯   , d N } D=\{d_1,d_2,\cdots,d_N\} D={ d1,d2,,dN}
    话题集合 Z = { z 1 , z 2 , ⋯   , c K } Z&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值