LSA/LSI原理以及实践

最新推荐文章于 2020-05-16 16:11:36 发布

亦万

最新推荐文章于 2020-05-16 16:11:36 发布

阅读量1.7k

点赞数

分类专栏： AI learning road 文章标签： LSA 主题模型 NLP 机器学习 SVD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/GrinAndBearIt/article/details/88284247

版权

AI learning road 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

LSA（latent semantic analysis）潜在语义分析也可以称为 LSI（latent semantic index）

该方法和传统向量空间模型一样使用向量来表示词（iterms）和文档（documents），并通过向量间（一般通过余弦相似度来刻画）的关系来表示词和文档之间的相似度

三个矩阵有非常清楚的物理含义。第一个矩阵U 中的每一行表示意思相关的一类词（可以将维度理解成特征数，每个词在各个特征中的数值），其中的每个非零元素表示这类词中每个词的重要性（或者说相关性），数值越大越相关。最后一个矩阵V 中的每一列表示同一主题一类文章，其中每个元素表示这类文章中每篇文章的相关性。中间的矩阵D 则表示类词和文章类之间的相关性。因此，我们只要对关联矩阵X 进行一次奇异值分解，我们就可以同时完成了近义词分类和文章的分类。（同时得到每类文章和每类词的相关性）

上面的叙述可能看起来比较迷，可以看一下一个具体的实例：

这个图有点走形，不过应该能看懂，图中一共有10篇文章，选择代表词11个，矩阵中的数字代表横坐标中的词对应的纵坐标中的文章中出现的词频，对这个矩阵进行SVD分解：

这样看起来理解起来比较容易理解

LSA的优点：

1. LSA可以在低维空间刻画同义词，同义词会对应着相似或相同的主题；

2. 降维可以去掉部门噪声，使特征更鲁棒；

3. 充分利用冗余数据（是指词频吗）

4. 无监督/完全自动化

5. 与语言无关

6. 能解决一意多词问题

LSA的缺点：

1. 无法解决一词多义的问题

2. SVD的优化目标基于L-2 norm 或者Frobenius Norm的，这相当于隐含了对数据的高斯分布假设。而term 出现的次数是非负的，这明显不符合Gaussian 假设，而更接近Multi-nomial 分布；

3. 对于count vectors 而言，欧式距离表达是不合适的（重建时会产生负数）；

4. 特征向量的方向没有对应的物理解释；

5. SVD的计算复杂度很高，而且当有新的文档来到时，若要更新模型需重新训练；

6. 维数的选择是ad-hoc的；

本文的内容大部分抄录： https://www.cnblogs.com/bentuwuying/p/6219970.html

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。