统计学习方法—潜在语义分析
潜在语义分析(latent semantic analysis, LSA)
是一种无监督学习方法,主要用于文本的话题分析,其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。
单词向量空间与话题向量空间
单词向量空间
文本信息处理,例如信息检索、文本数据挖掘等核心问题都是对文本的语义内容进行表示,并进行文本之间的语义相似度计算。最简单的方法就是利用向量空间模型(VSM)。
VSM:基本想法是,给定一个文本,用一个向量表示该文本的“语义”,向量的每一维对应一个单词,其数值为该单词在文本中出现的频数或权值。文本集合中每一个文本都表示为一个向量,存在于一个向量空间中;向量空间的度量,如内积或标准化内积表示文本之间的“语义相似度”。
- 简单例子:
给定一个含有n个文本的集合 D = { d 1 , d 2 , ⋯ , d n } D=\{d_1, d_2, \cdots, d_n\} D={ d1,d2,⋯,dn},以及在所有文本中出现的m个单词的集合 W = { w 1 , w 2 , ⋯ , w m } W=\{w_1, w_2,\cdots,w_m\} W={ w1,w2,⋯,wm},将单词在文本中出现的数据用一个单词-文本矩阵(word-document matrix)表示,记作 X X X:
X = [ x 11 x 12 ⋯ x 1 n x 21 x 22 ⋯ x 2 n ⋮ ⋮ ⋮ x m 1 x m 2 ⋯ x m n ] (1) X=\left[ \begin{matrix} x_{11} & x_{12} &\cdots & x_{1n}\\ x_{21} & x_{22} &\cdots & x_{2n}\\ \vdots & \vdots & &\vdots\\ x_{m1} & x_{m2} &\cdots & x_{mn} \end{matrix} \right] \tag{1} X=⎣⎢⎢⎢⎡x11x21⋮xm1x12x22⋮xm2⋯⋯⋯x1nx2n⋮xmn⎦⎥⎥⎥⎤(1)
这是一个 m × n m \times n m×n矩阵,元素 x i j x_{ij} xij表示单词 w i w_i wi在文本 d j d_j dj中出现的频数或权值。该矩大概率是一个稀疏矩阵。
权值通常用单词频率-你文本频率(term frequency-inverse document frequency,TF-IDF) T F I D F i j = t f i j t f ∗ j l o g d f d f i , i = 1 , 2 , ⋯ , m ; j = 1 , 2 , ⋯ , n TFIDF_{ij} = \frac{tf_{ij}}{tf_{*j}}log\frac{df}{df_i}, i=1,2,\cdots , m; j=1,2, \cdots ,n TFIDFij=tf∗jtfijlogdfidf,i=1,2,⋯,m;j=1,2,⋯