潜在语义分析（LSA）的原理讲解以及python实现

最新推荐文章于 2024-07-21 22:27:18 发布

xjtu_rzc

最新推荐文章于 2024-07-21 22:27:18 发布

阅读量7.3k

点赞数 5

文章标签： python 机器学习算法 lsa

本文链接：https://blog.csdn.net/qq_39320588/article/details/104380940

版权

在传统的文本信息处理中，以单词向量表示文本的语义内容，以单词向量空间的度量来表示文本之间的语义近似度。这种方法不能准确表示语义。
潜在语义分析试图从大量的文本数据中发现潜在的话题，以话题向量来表示文本的语义内容，以话题向量的空间度量更准确地表示文本之间的语义相似度。
潜在语义分析使用的是非概率的话题分析模型，具体来说，就是将文本集合表示为单词-文本矩阵，对单词-文本矩阵进行奇异值分解，从而得到话题向量空间，以及文本在话题向量空间的表示。可采用的矩阵分解方法有：奇异值分解、非负矩阵分解。
给定一个含有 $n$ 个文本的集合 $D=\{d_1,d_2,\cdots,d_n\}$ ，以及在所有文本中出现的 $m$ 个单词 $W=\{w_1,w_2,\cdots,w_m\}$ ，则将单词在文本中出现的数据用一个单词-文本表示，记作 $X$ 。
$[x_{ij}]_{m\times n}$
其中，元素 $x_{ij}$ 表示单词 $w_i$ 在文本 $d_j$ 中出现的频数或权值。该矩阵是一个稀疏矩阵。
权值通常用单词频率-逆文本频率（TF-IDF）表示，其定义是：
$TFIDF_{ij}=\frac{tf_{ij}}{tf_{\cdot j}}\log\frac{df}{df_i},i=1,2,\cdots,m;j=1,2,\cdots,n$
式中 $tf_{ij}$ 是单词 $w_i$ 出现在文本 $d_j$ 中的频数, $tf_{\cdot j}$ 是文本 $d_j$ 中出现的所有单词的频数之和， $df_i$ 是含有单词 $m_i$ 的文本数， $d f$ 是文本集合 $D$ 的全部文本数。直观的，一个单词在一个文本中出现的次数越高，这个单词在这个文本中的重要度就越高；一个单词在整个文本集合中出现的文本越少，这个单词就越能表示其所在文本的特点，重要程度就越高。
单词向量空间模型直接使用单词-文本矩阵信息。单词文本矩阵的第 $j$ 列向量 $x_j$ 表示文本 $d_j$ :
$x_j=[x_{1j},x_{2j},\cdots,x_{mj}]^T,j=1,2,\cdots,n$

最低0.47元/天解锁文章

xjtu_rzc

关注

5
点赞
踩
31

收藏

觉得还不错? 一键收藏
1
评论
潜在语义分析（LSA）的原理讲解以及python实现

在传统的文本信息处理中，以单词向量表示文本的语义内容，以单词向量空间的度量来表示文本之间的语义近似度。这种方法不能准确表示语义。潜在语义分析试图从大量的文本数据中发现潜在的话题，以话题向量来表示文本的语义内容，以话题向量的空间度量更准确地表示文本之间的语义相似度。潜在语义分析使用的是非概率的话题分析模型，具体来说，就是将文本集合表示为单词-文本矩阵，对单词-文本矩阵进行奇异值分解，从而得到话题...
复制链接

扫一扫

潜在语义分析（LSA）的原理讲解以及python实现

“相关推荐”对你有帮助么？