Topic Model之Probabilistic Latent Semantic Indexing(PLSI/PLSA)

最新推荐文章于 2021-11-13 13:33:58 发布

uilotus

最新推荐文章于 2021-11-13 13:33:58 发布

阅读量1.8k

点赞数 1

分类专栏：机器学习文章标签：机器学习话题模型 PLSI PLSA Topic Model

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/uilotus/article/details/38701021

版权

Probabilistic Latent Semantic Indexing（PLSI/PLSA）是常用的话题模型之一，他通过生成模型来模拟文档的产生过程，然后用Maximum likelihood的方法估计模型中未知参数的值，来获取整个生成模型中的参数值，从而构建起整个生成模型。

一、基本概念

1. SVD奇异值分解：SVD主要用来求低阶近似问题。当给定一个MXN的矩阵C时(其秩为r)，我们希望找到一个近似矩阵C‘（其秩不大于k），当k远小于r时，我们称C’为C的低阶近似，设X = C - C'为两个矩阵的差，X的F-范数为：

SVD计算步骤：

a、给定一个矩阵C，对其奇异值进行分解：C = U ∑ V

b、构造∑ ‘，其秩为k，选择将∑ 中奇异值最小的r-k个值置为0，即得到∑ ’

c、计算C‘ = U ∑’ V

因为特征值大小对矩阵和向量乘法的影响大小成正比，而奇异值和特征值也是成正比，因而选择最小的r-k个奇异值置为0 是合理的。

2. PCA主成分分析：PCA试图在丢失数据信息最少的情况下，对多维的数据进行最优综合简化，对高维的变量空间进行降维处理。

PCA计算步骤：

a、首先计算训练样本的均值和协方差矩阵：

b、对协方差矩阵进行特征值分解：

c、选择前k个最大的特征值对应的特征向量作为主成分分量，这些分量构成特征空间，我们就得到变换矩阵

对任何一条数据X，通过如下变化，将其转化到新的特征空间中的向量y:

3. TF-IDF:

首先介绍TF-term frequency，它用来度量一个单词在一个文档中出现的频率。由于不同的文档长短不同，为了防止TF偏向于长文件，通常对词频进行归一化处理。

通常一个文档中如果某个词出现的频率较高，可以认为这个文档和这个词的相关性比较高，但是，如果所有的文档都含有这个词&

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Topic Model之Probabilistic Latent Semantic Indexing(PLSI/PLSA)

Probabilistic Latent Semantic Indexing（PLSI/PLSA）是常用的话题模型之一，他通过生成模型来模拟文档的产生过程，然后用Maximum likelihood的方法估计模型中未知参数的值，来获取整个生成模型中的参数值，从而构建起整个生成模型。
复制链接

扫一扫

专栏目录

uilotus CSDN认证博客专家 CSDN认证企业博客

码龄11年

38: 原创

106万+: 周排名

54万+: 总排名

5万+: 访问

: 等级

981: 积分

8: 粉丝

23: 获赞

5: 评论

65: 收藏

私信

关注

热门文章

分类专栏

最新评论

线性表的一个算法题
白波言: 我觉得可以直接用快速排序，把正的移到右边，负数移到左边
线性表的一个算法题
lim(?X/?t?: 我看到这题首现想到的就是队列，不过这种方法需要申请的辅助空间多
线性表的一个算法题
lim(?X/?t?: 申请一个新数组，用于存放最终结果，申请一个队列用于存放正数。在便利初始顺序表时，遇到负数直接放入新数组，遇到正数的话让正数入队。在遍历完初始数组后，让队列中的元素出队，并存放在新数组中。
线性表的一个算法题
weixin_44850334: 第二种方法里面high=a【0】是什么意思想不明白
数据结构——线性表
胡萝卜不会写代码: 我比较好奇，你的代码能编译？一会儿是elem（i-1),一会儿又是elem[]的。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。