统计学习方法-LSA-读书笔记
1、前言
文本数据挖掘中最简单的方法是利用向量空间模型(vector space model,VSM),也就是但词向量空间模型,创造一个单词-文本矩阵,矩阵中的值通常采用单词在文本中出现的频数或权值表示。它是一个稀疏矩阵。
权值通常采用单词频率-逆文本频率(TF-IDF)表示,定义为
T F I D F i j = t f i j t f ⋅ j log d f d f i TFIDF_{ij}=\frac{tf_{ij}}{tf\cdot _j}\log \frac{df}{df_i} TFIDFij=tf⋅jtfijlogdfidf
t f i j tf_{ij} tfij是单词出现在文本中的频数, t f ⋅ j tf\cdot _j tf⋅j是文本中出现的所有单词的频数之和, d f i df_i dfi是含有单词的文本数, d f df df是文本集合D的全部文本数。
由于自然语言单词具有一词多义性,多词一义性,所以基于单词向量的相似度计算存在不精确的问题。
2、LSA
单词-文本矩阵X可以近似的表示成单词-话题矩阵T与话题-文本矩阵Y的乘积形式。这就是潜在语义分析。
X = T Y X=TY X=TY
2.1矩阵奇异值分解算法
①构建单词-文本矩阵X,这是一个m*n矩阵,表示单词在文本中出现的频数或权值。
②截断奇异值分解。根据确定的话题个数k对矩阵X进行截断奇异值分解,左矩阵作为话题空间向量,对角矩阵与右矩阵的乘积作为文本在话题向量空间的表示。