《统计学习方法》学习笔记第十七章 LSA(latent semantic analysis)

最新推荐文章于 2022-06-18 19:58:33 发布

LittleFish0820

最新推荐文章于 2022-06-18 19:58:33 发布

阅读量186

点赞数

分类专栏：统计学习方法文章标签：机器学习

本文链接：https://blog.csdn.net/m0_46459047/article/details/112750658

版权

统计学习方法专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1 单词向量空间与话题向量空间

1.1 word vector space

含有n个文本的集合 $D=\{d_1,d_2,\cdots,d_n\}$
在文本中出现的m个单词的集合 $W=\{w_1,w_2,\cdots,w_m\}$
(word-document matrix) $X=\left[ \begin{matrix} x_{11}&x_{12}&\cdots&x_{1n}\\ x_{21}&x_{22}&\cdots&x_{2n}\\ \vdots&\vdots&&\vdots\\ x_{m1}&x_{m2}&\cdots&x_{mn} \end{matrix} \right]$
X是一个稀疏矩阵。

权值通常用单词频率-逆文本频率(term frequency-inverse document frequency,TF-IDF) 表示
$TFIDF_{ij}=\frac{tf_{ij}}{tf_{\cdot j}}\log\frac{df}{df_i},\quad i=1,2,\cdots,m;\quad j=1,2,\cdots,n$
$tf_{ij}$ 是单词 $w_i$ 出现在文本 $d_j$ 中的频数
$tf_{\cdot j}$ 是文本 $d_{j}$ 中出现的所有单词的频数之和
$df_i$ 是含有单词 $w_i$ 的文本数
$d f$ 是文本集合D的全部文本数

直观上，一个单词在一个文本中出现的频数越高，这个单词在这个文本中的重要度就越高；一个单词在整个文本集合中出现的文本数越少，这个单词就越能表示其所在文本的特点，重要度就越高；一个单词在一个文本的TF-IDF是两种重要度的积，表示综合重要度。

两个单词向量的内积或标准化内积（余弦）表示对应的文本之间的语义相似度。
文本 $d_i$ 与 $d_j$ 之间的相似度为 $x_i\cdot x_j,\frac{x_i\cdot x_j}{||x_i||||x_j||}$

单词向量空间模型的局限性：
①polysemy：apple $\to$ apple computer，fruit
②synonymy：airplane，aircraft

1.2 topic vector space

假设所有文本共含有k个话题。假设每个话题由一个定义在单词集合W上的m维向量表示，称为话题向量，即
$t_l=\left[ \begin{matrix} t_{1l}\\ t_{2l}\\ \vdots\\ t_{ml} \end{matrix} \right],\quad l=1,2,\cdots,k$
其中 $t_{il}$ 是单词 $w_i$ 在话题 $t_l$ 的权值，权值越大，该单词在该话题中的重要度就越高。

(word-topic matrix) $T=\left[ \begin{matrix} t_{11}&t_{12}&\cdots&t_{1k}\\ t_{21}&t_{22}&\cdots&t_{2k}\\ \vdots&\vdots&&\vdots\\ t_{m1}&t_{m2}&\cdots&t_{mk} \end{matrix} \right]=[t_1\quad t_2\quad\cdots\quad t_k]$

考虑文本集合D中的文本 $d_j$ ，在单词向量空间由一个向量 $x_j$ 表示，将 $x_j$ 投影到话题向量空间T中，得到在话题向量空间的一个向量 $y_j$
$y_j=\left[ \begin{matrix} y_{1j}\\ y_{2j}\\ \vdots\\ y_{kj} \end{matrix} \right],\quad j=1,2,\cdots,n$
$y_{lj}$ 是文本 $d_j$ 在话题 $t_l$ 的权值，权值越大，该话题在该文本中的重要度就越高。
(topic-document matrix) $Y=\left[ \begin{matrix} y_{11}&y_{12}&\cdots&y_{1n}\\ y_{21}&y_{22}&\cdots&y_{2n}\\ \vdots&\vdots&&\vdots\\ y_{k1}&y_{k2}&\cdots&y_{kn} \end{matrix} \right]=[y_1\quad y_2\quad \cdots\quad y_n]$

潜在语义分析： $X\approx TY$

2 潜在语义分析算法——矩阵奇异值分解算法

$X=U_k\Sigma_kV_k^T=[u_1\quad u_2\quad \cdots\quad u_k]\left[ \begin{matrix} \sigma_1&0&\cdots&0\\ 0&\sigma_2&\cdots&0\\ \vdots&\vdots&&\vdots\\ 0&0&\cdots&\sigma_k \end{matrix} \right]\left[ \begin{matrix} v_1^T\\ v_2^T\\ \vdots\\ v_k^T \end{matrix}\right]$
式中 $k\le n\le m$ ，矩阵 $U_k$ 的每一个列向量表示一个话题，称为话题向量； $\Sigma_kV_k^T$ 是文本在话题空间的表示。

3 非负矩阵分解算法

若一个矩阵X所有的元素非负，则称该矩阵X为非负矩阵，记作 $X\ge0$ 。
给定一个 $X\ge0$ ，找到两个 $W\ge0$ 和 $H\ge0$ ，使得 $X\approx WH$ 。
假设非负矩阵 $X\in R^{m\times n},W\in R^{m\times k},H\in R^{k\times n}$ ，假设 $k<\min(m,n)$ ，即W和H小于原矩阵。

设两个非负矩阵 $A=[a_{ij}]_{m\times n},B=[b_{ij}]_{m\times n}$ ，平方损失函数定义为
$||A-B||^2=\sum\limits_{i,j}(a_{ij}-b_{ij})^2$ ；散度(divergence)损失函数定义为 $D(A||B)=\sum\limits_{i,j}(a_{ij}\log\frac{a_{ij}}{b_{ij}}-a_{ij}+b_{ij})$

① $\min\limits_{W,H}||X-WH||^2 \quad s.t. W,H\ge0$
② $\min\limits_{W,H}D(X||WH) \quad s.t. W,H\ge0$

Theorem1 $X-WH||^2$ 对下列乘法更新法则
$H_{lj}\leftarrow H_{lj}\frac{(W^TX)_{lj}}{(W^TWH)_{lj}}$
$W_{il}\leftarrow W_{il}\frac{(XH^T)_{il}}{(WHH^T)_{il}}$
是非增的。当且仅当W和H是平方损失函数的稳定点时函数的更新不变。

Theorem2 $D (X ∣ ∣ W H)$ 对下列乘法更新法则
$H_{lj}\leftarrow H_{lj}\frac{\sum_i[W_{il}X_{ij}/(WH)_{ij}]}{\sum_iW_{il}}$
$W_{il}\leftarrow W_{il}\frac{\sum_j[H_{lj}X_{ij}/(WH)_{ij}]}{\sum_jH_{lj}}$
是非增的。当且仅当W和H是散度损失函数的稳定点时函数的更新不变。