简易中文自动文摘系统（五）：自动文摘实现及总结

最新推荐文章于 2022-11-20 11:02:02 发布

ReignsDu

最新推荐文章于 2022-11-20 11:02:02 发布

阅读量4k

点赞数 3

分类专栏：自然语言处理-自动文摘

本文链接：https://blog.csdn.net/reigns_/article/details/80985082

版权

自然语言处理-自动文摘专栏收录该内容

5 篇文章 8 订阅

订阅专栏

经过上述的工作以及编程，我们使用Python已经设计出简要的中文自动文摘系统。我们选取一段关于南京邮电大学计算机学院、软件学院、网络空间安全学院的简介，选择其中经过本文模型训练选择的权重最高的5句话作为摘要。

输出结果为：

本实验中使用的中文语料库为维基百科中文语料库，维基百科中文语料库的质量较高，而且领域广泛(适合本文研究的问题)，经过测试模型的结果也是如此——对于“北京”、“南京”、“大学”等词的测试都较为准确。当然它的缺点也有，突出缺点就是语料库的语句数量较少，相比于国内的北大中文语料库、哈工大中文语料库、百度百科中文语料库和互动百科中文语料库等千万级别的语料库，数据量要少一个数量级(约91万条)，最明显的是对于一些中文特有的人名的识别。的确，在实验的文章中有一个单词并未实现分词：“余人次”，故本人将该词替换为“多人”，成功识别。其中分词使用到的是jieba分词，jieba分词作为一个python的中文分词外部包，安装与使用非常方便，功能也非常强大，基本可以完成对日常中文语句的精确分词。

本文介绍了PageRank算法和TextRank算法，并重点研究了TextRank算法对单一文档中各个句子、单词的权重计算，做出评价分析进行重点语句筛选，抽取出文章摘要这一过程的原理。

文章重点研究了机械文摘的抽取式自动文摘算法，并用其实现了简单中文文档的自动文摘生成。并以一篇南京邮电大学计算机学院、软件学院、网络空间安全学院的简介为例，对该文章进行分句、分词，使用得到的模型进行训练，得到自动文摘。诚然，本文并未进行模型评价和优化，这对于在进一步的研究中可以对模型进行评价和优化。

随着大数据时代的到来，指数级的数据增长对数据信息筛选提出更高的要求。国外Google、Amazon和国内百度、腾讯等公司早已对自然语言理解进行研究，国内外各大高等院校(如麻省理工学院、北京大学、北京邮电大学、清华大学、上海交通大学、哈尔滨工业大学等)也对自动文摘进行了卓有建树的研究。因此，在大数据+人工智能的时代，从学习Python编程语言，建立集成开发环境，学习中文语料的处理方法，查阅自然语言处理的资料，学习自动文摘模型，学习TextRank算法的原理，到实现单文档自动文摘算法，都要通过不断学习技术和知识来实现。