gensim提取一个句子的关键词_基于Gensim的摘要自动生成算法研究与实现

基于Gensim的摘要自动生成算法研究与实现

肖元君吴国文*

【摘要】摘要为了让计算机能够对中文文章提取摘要,提出一种中文摘要自动生成算法。该算法基于Gensim自然语言处理框架实现,并在原有的基础上做出了改进,算法主要分为两个阶段。关键句生成阶段,对中文语料进行预处理,并放入Gensim框架中的Word2vec模型进行训练,修改TextRank算法使其能够接受词向量的输入生成无向图从而找到关键句;摘要生成框架构建阶段,根据文章结构与Gensim框架中的LDA主题模型所提取的关键词,赋予句子不同的权值,将分数高的几个句子组合生成文章摘要。Rouge摘要评测结果表明,该算法生成的摘要能够包含文章关键信息,相比于其他自动文摘算法,句意通顺程度得到了提升。

【期刊名称】《计算机应用与软件》

【年(卷),期】2019(036)012

【总页数】6

【关键词】关键词Gensim框架Word2vec模型TextRank算法摘要生成框架 LDA主题模型 Rouge摘要评测

0 引言

自动文摘技术指的是利用计算机对文本进行处理,挖掘出最符合文意的句子,是自然语言处理领域中一个很重要的分支。

在当今学术领域中,生成文本摘要的方式主要有两种,1) 抽取式,顾名思义,就是选出文章中最关键的句子作为文章摘要。如李娜娜等[1]提出的基于TextRank的自动摘要优化算法,该算法运用词频统计,找到文章的关键句子,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值