/* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/
author: 张俊林,黄通文,薛会萍
文本摘要是在信息泛滥的时代非常重要的工具,可以帮助用户快速判断文章内容主旨,并以此决定是否值得细看文章内容。
本文介绍下我们在2014年底2015年初时,使用WordEmbedding思想来构造文本摘要的一些思路,其中包括一种异常简单的文本摘要实现思路,实验效果证明这种方法虽然简单,可能比传统的TFIDF方法还要简单,但是效果与比较复杂的方法是相当的。
这里介绍我们做的其中两种方法,一种是非常简单的根据字Word Embedding直接叠加方式做摘要系统,另外一种是对HITS经过Word Embedding改造的文本摘要思路。
|基于字Word Embedding叠加的简洁文本摘要系统
首先,我们可以使用Word2Vec等工具获得汉字的Word Embedding。然后对于某个文档进行分句,对于每个句子使用单字的Word Embedding直接累加获得句子的Word Embedding表示;
然后,把每个句子的WordEmbedding直接累加获得整个文档的Word Embedding