文本摘要技术调研

本文探讨了文本摘要的几个关键方面,如主题覆盖率、冗余度和流畅性。区分了抽取式与合成式摘要,单文档与多文档摘要,以及查询相关与查询无关的摘要任务。此外,介绍了非监督方法,如线性组合、词汇链、图模型和子主题分析,以及监督方法,如朴素贝叶斯、决策树和SVM-HMM。最后,分析了不同方法的效果和优缺点。
摘要由CSDN通过智能技术生成

  /* 版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 


                    文本摘要技术调研

                          

                        CopyMiddle: 张俊林

                         TimeStamp:2010 年9 月  


一.文本摘要值得关注的几个方面

   1.主题覆盖率

        一篇新闻或者文摘往往会包含若干子主题,摘要应该能够覆盖所有这些子主题,至少应该包含主要的子主题; 

   2.冗余尽可能少

        摘要因为是要利用较少的句子来尽可能体现文章主旨信息,所以摘要句子之间的信息冗余应该尽可能小,这样可以满足用尽可能少的信息表达尽可能丰富的文章主旨信息;

   3.摘要流畅性强

       句子之间往往因为会包含代词等指代信息,所以应该避免阅读起来不流畅的问题。  

 

二.不同的摘要任务类型

   1. 抽取式VS合成式

       抽取式文摘:摘要的句子完全从文章正文中进行抽取而成 。基本思路是:按照一定因素给每个句子打分,然后根据句子得分排序,按比例输出得分高的句子作为摘要内容;常见做法是线性组合各种特征,各种特征的权值设定手工指定;

       合成式文摘:不是纯粹从文章中抽取句子,而是对文中的句子片段进行改写,然后进行拼接生成句子集合作为文摘结果;

      从目前研究看,绝大多数实际系统是抽取方式,合成方式目前还是不够成熟,只有少量研究型系统采取这种方法;

 

2. 单文档VS多文档[1,9]

    多文档摘要指的是给定主题相关的K篇文档,通过摘要能够体现这K篇文档的主题信息;

    多文档摘要与单文档摘要相比,有些需要特殊考虑之处,比如:

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值