python实现英文新闻摘要自动提取_python实现英文新闻摘要自动提取

我们现在浏览新闻,一般都会看标题 ( title ) 和新闻简介 ( summary ) 来判断我们是否对这则新闻感兴趣。之前的新闻简介都是由编辑手动提取的,现在自然语言处理 (Natural Language Processing, NLP) 技术发展日益成熟,我们发现计算机提取的摘要也可圈可点。

新闻摘要提取就是除去新闻中冗余的部分,只保留关键的语句。最近几年关于新闻摘要提取的相关算法发展迅速,如果你想学习如何自动提取新闻摘要,那么可以学习这个项目,该项目将通过两个实验来为大家介绍两个图区摘要的算法(“关键字提取”算法、TextRank算法),并通过python语言完成英文新闻摘要的自动提取。

实验内容

主要完成一个相对简单的“关键字提取”算法,关注的是实现的过程,让同学们对自然语言处理有个大致的了解。

实验知识点

Python基础知识;

“关键字提取”算法;

TextRank算法;

“关键字提取”算法思路解析

我们的基本思想很简单:拥有关键词最多的句子就是最重要的句子。我们把句子按照关键词数量的多少排序,取前n句,即可汇总成我们的摘要。

所以我们的工作可以分为如下步骤:

给在文章中出现的单词按照算法计算出重要性

按照句子中单词的重要性算出句子的总分

按照句子的总分给文章中的每个句子排序

取出前n个句子作为摘要

关于“关键字提取”算法的具体开发步骤以及代码详解,点击这里即可查看了~

TextRank算法思路解析

利用函数计算两个句子之间的相似性,并创建相似度邻接矩阵,根据PageRank算法,算出句子分数,找出分数最高的两个句子&#

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值