论文阅读-基于LSA的摘要生成

本文介绍了基于LSA的摘要生成方法。LSA通过降维保留重要信息,利用SVD进行矩阵变换,捕捉词与词之间的关系。句子向量化涉及权重选择,如局部权重和全局权重。SVD过程将矩阵A转换为低维表示,用于摘要生成,选择重要奇异向量表示关键主题,生成摘要。
摘要由CSDN通过智能技术生成


原文《Generic Text Summarization Using Relevance Measure and
Latent Semantic Analysis》介绍了两种摘要生成的方法,但是我主要阅读了第二部分,即利用LSA的方法。

简介

LSA的工作原理是将数据投影到较低维空间而不会有任何重要信息丢失。解释该空间分解操作的一种方式是奇异向量可以捕获并表示在语料库中重复出现的单词组合模式。奇异值的大小表示模式在文档中的重要性。

1、句子向量化

那怎么把文档中的句子变成向量呢?原文

T i T_{i} Ti是passage i i i的词频向量,向量中每一个值 t j i t_{ji} tji表示的是词 j j j在passage i i i出现的频率。这里passage i i i可以是一个短语,也可以是句子,还可以是段落,甚至是整篇文档。(有i个passage,j个词)

那么,passage i i i的加权词频向量 A i = [ a 1 i a 2 i … a n i ] T A_{i}=\left[\begin{array}{llll}a_{1i}&a_{2i}& \ldots & a_{ni}\end{array}\right]^T Ai=[a1ia2iani]T,向量每一个值为:

a j i = L ( t j i ) ⋅ G ( t j i ) a_{j i}=L\left(t_{j i}\right) \cdot G\left(t_{j i}\right) aji=L(tji)G(tji)

1.1 权重选择

权重的选择也是有很多方法的。

1.1.1 局部权重

先说 L ( i ) L(i) L(i)的选择方式:

  1. 使用词频 t f ( i ) tf(i) tf(i),即词 i i i在句子出现的次数
  2. 只要词 i i i在句子出现, L ( i ) = 1 L(i)=1 L(i)=1,反之, L ( i ) = 0 L(i)=0 L(i)=0
  3. 按照 L ( i ) = 0.5 + 0.5 ( ˙ t f ( i ) = t f ( m a x ) ) L(i) = 0.5 + 0.5 \dot (tf (i)=tf (max)) L(i)=0.5+0.5(˙tf(i)=tf(max)),就是先用出现次数最多的那个词做一个归一化
  4. 还可以通过 L ( i ) = l o g ( 1 + t f ( i ) ) L(i)=log(1+tf(i)) L(i)=log(1+tf(i))来进行计算
1.1.2 全局权重

对于 G (

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值