我们现在浏览新闻,一般都会看标题 ( title ) 和新闻简介 ( summary ) 来判断我们是否对这则新闻感兴趣。之前的新闻简介都是由编辑手动提取的,现在自然语言处理 (Natural Language Processing, NLP) 技术发展日益成熟,我们发现计算机提取的摘要也可圈可点。
新闻摘要提取就是除去新闻中冗余的部分,只保留关键的语句。最近几年关于新闻摘要提取的相关算法发展迅速,如果你想学习如何自动提取新闻摘要,那么可以学习这个项目,该项目将通过两个实验来为大家介绍两个图区摘要的算法(“关键字提取”算法、TextRank算法),并通过python语言完成英文新闻摘要的自动提取。
实验内容
主要完成一个相对简单的“关键字提取”算法,关注的是实现的过程,让同学们对自然语言处理有个大致的了解。
实验知识点
Python基础知识;
“关键字提取”算法;
TextRank算法;
“关键字提取”算法思路解析
我们的基本思想很简单:拥有关键词最多的句子就是最重要的句子。我们把句子按照关键词数量的多少排序,取前n句,即可汇总成我们的摘要。
所以我们的工作可以分为如下步骤:
给在文章中出现的单词按照算法计算出重要性
按照句子中单词的重要性算出句子的总分
按照句子的总分给文章中的每个句子排序
取出前n个句子作为摘要
关于“关键字提取”算法的具体开发步骤以及代码详解,点击这里即可查看了~
TextRank算法思路解析
利用函数计算两个句子之间的相似性,并创建相似度邻接矩阵,根据PageRank算法,算出句子分数,找出分数最高的两个句子&#