简易中文自动文摘系统(五):自动文摘实现及总结

    经过上述的工作以及编程,我们使用Python已经设计出简要的中文自动文摘系统。我们选取一段关于南京邮电大学计算机学院、软件学院、网络空间安全学院的简介,选择其中经过本文模型训练选择的权重最高的5句话作为摘要。

    输出结果为:

    本实验中使用的中文语料库为维基百科中文语料库,维基百科中文语料库的质量较高,而且领域广泛(适合本文研究的问题),经过测试模型的结果也是如此——对于“北京”、“南京”、“大学”等词的测试都较为准确。当然它的缺点也有,突出缺点就是语料库的语句数量较少,相比于国内的北大中文语料库、哈工大中文语料库、百度百科中文语料库和互动百科中文语料库等千万级别的语料库,数据量要少一个数量级(约91万条),最明显的是对于一些中文特有的人名的识别。的确,在实验的文章中有一个单词并未实现分词:“余人次”,故本人将该词替换为“多人”,成功识别。其中分词使用到的是jieba分词,jieba分词作为一个python的中文分词外部包,安装与使用非常方便,功能也非常强大,基本可以完成对日常中文语句的精确分词。

    本文介绍了PageRank算法和TextRank算法,并重点研究了TextRank算法对单一文档中各个句子、单词的权重计算,做出评价分析进行重点语句筛选,抽取出文章摘要这一过程的原理。

    文章重点研究了机械文摘的抽取式自动文摘算法,并用其实现了简单中文文档的自动文摘生成。并以一篇南京邮电大学计算机学院、软件学院、网络空间安全学院的简介为例,对该文章进行分句、分词,使用得到的模型进行训练,得到自动文摘。诚然,本文并未进行模型评价和优化,这对于在进一步的研究中可以对模型进行评价和优化。

    随着大数据时代的到来,指数级的数据增长对数据信息筛选提出更高的要求。国外Google、Amazon和国内百度、腾讯等公司早已对自然语言理解进行研究,国内外各大高等院校(如麻省理工学院、北京大学、北京邮电大学、清华大学、上海交通大学、哈尔滨工业大学等)也对自动文摘进行了卓有建树的研究。因此,在大数据+人工智能的时代,从学习Python编程语言,建立集成开发环境,学习中文语料的处理方法,查阅自然语言处理的资料,学习自动文摘模型,学习TextRank算法的原理,到实现单文档自动文摘算法,都要通过不断学习技术和知识来实现。

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值