关于单文档摘要的学习心得体会

在开始读一些论文之前,首先了解了一下单文档摘要的一些基础概念知识。
文档自动摘要是NLP中较难的技术,通俗来说就是用一些精炼的话来概括整篇文章的大意,分为Extractive(抽取式)和Abstractive(生成式)两种方法。Extractive是从原文中找到一些关键的句子,组合成一篇摘要,目前被广泛应用。Abstractive需要计算机首先读懂理解一些语句,然后通过提炼总结用自己的语言表达出来,这种技术目前还相对不够成熟。
文档自动摘要还可以分为单文档摘要和多文档摘要,单文档摘要的目的是在原始的文本中通过摘取,提炼主要信息,提供一篇简洁全面的摘要,多文档摘要相对单文档摘要要复杂得多。
通过查看一些资料和进行一定量的阅读之后,我对文档自动摘要有了一定的了解,我阅读了一些关于单文档摘要的论文,阅读收获如下:
一.读论文《基于语义的单文档自动摘要算法》收获体会
作者:章芝青
来源:浙江大学
发表时间:2010-4-1
研究的问题:单文档摘要的难点1)在文本中存在相似甚至是相同的信息。2)对于相同的意思通过使用不同的词来表达。基于以上两点,论文中提出了基于语义的自动摘要解决框架:利用知网计算词和句子的语义相似度,通过改进型K-Medoids聚类算法选择句子组成摘要。
我对论文单文档摘要形成流程的理解和心得体会:
① 单文档摘要流程:原始文档—>文档转化为句子—>句子词性标注—>根据知网计算句子对的相似度—>采用改进型K-Medoids算法聚类确定K值,并将句子根据相似度大小归类,通过计算分别从K个类中选取同类中相似度最高的句子组成最后的摘要。
② 词语相似度计算:知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网中含有丰富的词汇语义知识和世界知识,为自然语言处理和机器翻译等方面的研究提供了宝贵的资源,因此研究人员可以利用知网计算词语相似度。
③ 句子相似度计算:在利用知网计算词语的相似度的基础上,本文提出了基于语义的句子相似度的计算方法,即先将两个句子进行分词处理,然后选出名词,动词,形容词,利用上述提到的计算词语相似度的方法分别对两个句子中的词语两两之间进行相似度计算,将相似度最大的两个词语对应起来,并从分词组中删除,继续重复此步骤,直至没有相似度的词语,剩下的词语与空值对应。最终句子的相似度即是词语对的相似度的算术平均值。
④ 本论文是基于语义的单文档自动摘要算法,是对自然语言处理领域的一个探索,基于语义的单文档自动摘要算法在一定程度上更有利于理解文本的意思,因此研究人员可以在这个方向上再进行深一步的研究,探索更好的方法。
注:ROUGE系统(Recall-Oriented Understudy for Gisting Evaluation):测评工具,基本思想是将待审摘要和参考摘要的n元组共现统计量作为评价依据 ,然后通过一系列标准进行打分。通俗地将就是通过一些定量化的指标来描述待审摘要和参考文摘之间的相似性,维度考虑比较多,在一定程度上可以很好地评价Extracive产生的摘要。
二.读论文《基于词句协同排序的单文档自动摘要算法》收获体会
作者:张璐 曹杰 蒲朝仪 伍之昂
来源:南京财经大学 江苏省电子商务重点实验室
发表时间:2017-7-21
研究的问题:文档中的词与句是不可分割的整体,充分考虑词与句之间的协同关系有助于进一步提高自动摘要的质量。基于图排序的自动摘要算法无需训练样本,可扩展性强,被广泛应用,但其主要考虑句子层面关系,在基于单词特征生成自动摘要研究工作中,揭示了词对句子评分的重要影响,但单词权重与句子权重之间的相互增强关系并未得到清晰的表达,本文针对这一问题展开研究,通过建立词句间的协同增强模型,将词的权重融入到句子权重的计算过程中,从而生成更加准确的自动摘要。
我对论文单文档摘要形成流程的理解和心得体会:
① 单文档摘要流程:原始文档—>将文档建模以句子为图的顶点,句子间的关系为边的句网络图—>利用改进的图排序算法(词句协同排序算法)计算顶点权重,收敛后的权重即为相应句子的评分—>对得到的句子进行冗余去除—>将相似度比较高的前K个句子按照文档中出现的顺序组成摘要。
② 句子评分的三种方法:利用句子及其中单词的语义特征或统计性特征,通过构建评价函数计算句子的权重,这类方法简单直观,不依赖于外部语料库和训练集,但是需要人工拟合评价函数,主观性太强了,计算参数要根据经验设定,摘要效果不佳;基于机器学习的评价方法,通过训练样本的学习构建分类器,从而直接判定一个句子是否应被选为摘要句,此方法摘要的质量受制于训练样本和领域知识,通用性差;基于图排序的评分方法,将句子建模为图为顶点,利用句子相似性或者共现关系建立节点之间的边,应用特定图排序算法迭代计算顶点权重,收敛后的权重即为相应句子的评分。
③ 本文中涉及了一些图排序的算法,如PageRank,HITS(Hyperlink
-Induced Topic Search),TextRank等以及计算过程的介绍还需要进一步的研究学习,深入理解。
④ 本文中涉及到一些方法,包括句子冗余去除,关键词对句子评分的影响,并且分析了参数对文档摘要形成的影响,以此为基础最终提出了基于词句协同排序的单文档自动摘要算法,比较有效的提升了摘要的质量。
三.读专利《单文档摘要生成方法》收获体会
作者:薛世帅 郭成林 彭春林 刘红玉 高云棋 刘丹
来源:宁波成电泰克电子信息技术发展有限公司
发表时间:2016-1-20
研究内容:现有的技术要么将单文档扩展为多文档,再利用多文档摘要的方法进行单文档摘要。要么只利用单文档进行摘要,但仍未充分认识单文档的内容,造成了摘要的提取纯度不高。针对以上问题本专利中提出了一种单文档摘要生成方法,可以生成高质量的单文档摘要。
我对专利中提到的单文档摘要生成方法的理解和心得体会:
① 单文档摘要生成方法介绍:对原始文档的段落进行聚类,每一个类别为一个语义块—>计算语义块内两两句子的相似度,作为一个句子对另一个句子的打分,得分最高的句子为每一个语义块中表述该部分核心内容的句子—>根据核心句子出现的顺序,连接句子,生成摘要。
② 本文中句子相似度是通过两层结构计算的:第一层计算句子中的名字动词相似度,且两个词通过知网的词的语义相似度计算;第二层计算命名实体的相似度。首先对句子进行标注,抽取标注中的命名实体,然后计算命名实体相似度。
③ 本文中将相同语义的段落构建VSM模型,然后基于段落进行聚类,这样可以提高摘要生成的效率和准确率。再通过计算找出每一个类中得分最高的句子作为语义类中最重要的句子,将每一个语义块中的最重要的句子组成最终的摘要。
④ 本文基于段落将文本分成若干语义块,再使用算法计算出句子的权值,将文档相同语义段落聚类,大大减少了文档句子间的相似度比较量,在一定程度上降低了生成摘要的工作量,提高了摘要形成的效率。同时在聚类中用了Single-pass极大提高了聚类速度,在句子相似度计算中提出了通过计算代表句义的名词和动词的最大相似词的相似度来计算句子相似度。
文末小结:
通过查资料和一定量的博客阅读,我对单文档自动摘要的基本知识有了初步了解,又通过这三篇论文的阅读,我对其有了深一步的了解,但是理解程度相对有限,达到完全理解还需要大量的基础知识去学习,探索。自动文摘出现的重要原因之一是信息过载问题的困扰,另外一个重要原因是人工文摘的成本较高。而自动文摘的技术离一个高水平的AI还有一段距离,所以研究实现计算机如何高效准确的完成文档自动摘要的功能是一个意义非凡且非常具有挑战性的任务。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值