基于Gensim的摘要自动生成算法研究与实现
肖元君吴国文*
【摘要】摘要为了让计算机能够对中文文章提取摘要,提出一种中文摘要自动生成算法。该算法基于Gensim自然语言处理框架实现,并在原有的基础上做出了改进,算法主要分为两个阶段。关键句生成阶段,对中文语料进行预处理,并放入Gensim框架中的Word2vec模型进行训练,修改TextRank算法使其能够接受词向量的输入生成无向图从而找到关键句;摘要生成框架构建阶段,根据文章结构与Gensim框架中的LDA主题模型所提取的关键词,赋予句子不同的权值,将分数高的几个句子组合生成文章摘要。Rouge摘要评测结果表明,该算法生成的摘要能够包含文章关键信息,相比于其他自动文摘算法,句意通顺程度得到了提升。
【期刊名称】《计算机应用与软件》
【年(卷),期】2019(036)012
【总页数】6
【关键词】关键词Gensim框架Word2vec模型TextRank算法摘要生成框架 LDA主题模型 Rouge摘要评测
0 引言
自动文摘技术指的是利用计算机对文本进行处理,挖掘出最符合文意的句子,是自然语言处理领域中一个很重要的分支。
在当今学术领域中,生成文本摘要的方式主要有两种,1) 抽取式,顾名思义,就是选出文章中最关键的句子作为文章摘要。如李娜娜等[1]提出的基于TextRank的自动摘要优化算法,该算法运用词频统计,找到文章的关键句子,