原文《Generic Text Summarization Using Relevance Measure and
Latent Semantic Analysis》介绍了两种摘要生成的方法,但是我主要阅读了第二部分,即利用LSA的方法。
简介
LSA的工作原理是将数据投影到较低维空间而不会有任何重要信息丢失。解释该空间分解操作的一种方式是奇异向量可以捕获并表示在语料库中重复出现的单词组合模式。奇异值的大小表示模式在文档中的重要性。
1、句子向量化
那怎么把文档中的句子变成向量呢?原文
即 T i T_{i} Ti是passage i i i的词频向量,向量中每一个值 t j i t_{ji} tji表示的是词 j j j在passage i i i出现的频率。这里passage i i i可以是一个短语,也可以是句子,还可以是段落,甚至是整篇文档。(有i个passage,j个词)
那么,passage i i i的加权词频向量 A i = [ a 1 i a 2 i … a n i ] T A_{i}=\left[\begin{array}{llll}a_{1i}&a_{2i}& \ldots & a_{ni}\end{array}\right]^T Ai=[a1ia2i…ani]T,向量每一个值为:
a j i = L ( t j i ) ⋅ G ( t j i ) a_{j i}=L\left(t_{j i}\right) \cdot G\left(t_{j i}\right) aji=L(tji)⋅G(tji)
1.1 权重选择
权重的选择也是有很多方法的。
1.1.1 局部权重
先说 L ( i ) L(i) L(i)的选择方式:
- 使用词频 t f ( i ) tf(i) tf(i),即词 i i i在句子出现的次数
- 只要词 i i i在句子出现, L ( i ) = 1 L(i)=1 L(i)=1,反之, L ( i ) = 0 L(i)=0 L(i)=0
- 按照 L ( i ) = 0.5 + 0.5 ( ˙ t f ( i ) = t f ( m a x ) ) L(i) = 0.5 + 0.5 \dot (tf (i)=tf (max)) L(i)=0.5+0.5(˙tf(i)=tf(max)),就是先用出现次数最多的那个词做一个归一化
- 还可以通过 L ( i ) = l o g ( 1 + t f ( i ) ) L(i)=log(1+tf(i)) L(i)=log(1+tf(i))来进行计算
1.1.2 全局权重
对于 G (