统计学习方法-潜在语义分析（LSA）-读书笔记

最新推荐文章于 2021-02-11 20:32:16 发布

qq_38829768

最新推荐文章于 2021-02-11 20:32:16 发布

阅读量445

点赞数

分类专栏：学习笔记文章标签：潜在语义分析 LSA 统计学习方法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38829768/article/details/103120909

版权

统计学习方法-LSA-读书笔记

1、前言

文本数据挖掘中最简单的方法是利用向量空间模型（vector space model,VSM）,也就是但词向量空间模型，创造一个单词-文本矩阵，矩阵中的值通常采用单词在文本中出现的频数或权值表示。它是一个稀疏矩阵。
权值通常采用单词频率-逆文本频率（TF-IDF）表示，定义为
$TFIDF_{ij}=\frac{tf_{ij}}{tf\cdot _j}\log \frac{df}{df_i}$
$tf_{ij}$ 是单词出现在文本中的频数， $tf\cdot _j$ 是文本中出现的所有单词的频数之和， $df_i$ 是含有单词的文本数， $d f$ 是文本集合D的全部文本数。
由于自然语言单词具有一词多义性，多词一义性，所以基于单词向量的相似度计算存在不精确的问题。

2、LSA

单词-文本矩阵X可以近似的表示成单词-话题矩阵T与话题-文本矩阵Y的乘积形式。这就是潜在语义分析。
$X = T Y$

2.1矩阵奇异值分解算法

①构建单词-文本矩阵X，这是一个m*n矩阵，表示单词在文本中出现的频数或权值。
②截断奇异值分解。根据确定的话题个数k对矩阵X进行截断奇异值分解，左矩阵作为话题空间向量，对角矩阵与右矩阵的乘积作为文本在话题向量空间的表示。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法-潜在语义分析（LSA）-读书笔记

统计学习方法-LSA-读书笔记1、前言2、LSA2.1矩阵奇异值分解算法2.2非负矩阵分解算法1、前言文本数据挖掘中最简单的方法是利用向量空间模型（vector space model,VSM）,也就是但词向量空间模型，创造一个单词-文本矩阵，矩阵中的值通常采用单词在文本中出现的频数或权值表示。它是一个稀疏矩阵。权值通常采用单词频率-逆文本频率（TF-IDF）表示，定义为TFIDFij=t...
复制链接

扫一扫

专栏目录

qq_38829768 CSDN认证博客专家 CSDN认证企业博客

码龄7年

29: 原创

43万+: 周排名

168万+: 总排名

1万+: 访问

: 等级

485: 积分

6: 粉丝

6: 获赞

2: 评论

30: 收藏

私信

关注

分类专栏

PAPER 1篇
学习笔记 17篇
DeepLearningBook 2篇
实习 2篇

最新评论

统计学习方法-PCA-读书笔记
消失在黎明√.: 请问一下，这个定理是怎么证明的？对任意正整数q，1<=q<=m,考虑正交线性变换y = B T x y=B^Txy=B T x,其中y是q维向量，BT是q*m矩阵，令y的协方差矩阵为Σ y = B T Σ B {\Sigma}_y=B^T{\Sigma}BΣ y =B T ΣB,则其迹tr()在B=Aq时取得最大值，其中矩阵Aq由正交矩阵A的前q列组成。
统计学习方法-提升方法-读书笔记
ctotalk: good.

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。