文本自动摘要概述

最新推荐文章于 2023-06-14 17:06:50 发布

weixin_33724659

最新推荐文章于 2023-06-14 17:06:50 发布

阅读量389

点赞数

文章标签：人工智能 python

原文链接：https://my.oschina.net/u/2354614/blog/1539276

版权

2019独角兽企业重金招聘Python工程师标准>>>

1.文本自动摘要的分类

此处只介绍两种，一种是依据输入文本数量划分，一种是摘要和原文的关系划分。

根据输入文本的数量划分，文本摘要技术可以分为单文档摘要和多文档摘要；

根据文摘和原文的关系划分，可以分为摘录式(extraction)文摘和生成式(abstraction)文摘。摘录型文摘由原文中抽取出来的片段组成，理解型文摘是对原文只要内容重新组织后形成的。

2.文本自动摘要的基本步骤

一般来说，自动文摘过程包括三个基本步骤：

(1)文本分析过程：对原文进行分析处理，识别出冗余信息；

(2)文本内容的选取和泛化过程：从文档中辨认重要信息，通过摘录或概括的方法压缩文本，或者通过计算分析的方法形成文摘表示；

(3)文摘的转换和生成过程：实现对原文内容的重组或者根据内部表示生成文摘，并确保文摘的连贯性

文摘的输出形式依据文摘的用途和用户需求确定。不同的系统所采用的具体实现方法不同，因此在不同的系统中，上述几个模块所处理的问题和采用的方法也有所差异。

3.文本自动摘要的基本问题

在单文档摘要系统中，一般都采取基于抽取的方法。而对于多文档而言，由于在同一个主题中的不同文档中不可避免地存在信息交叠和信息差异，因此如何避免信息冗余，同时反映出来自不同文档的信息差异是多文档文摘中的首要目标，而要实现这个目标通常以为着要在句子层以下做工作，如对句子进行压缩，合并，切分等。另外，单文档的输出句子一般是按照句子在原文中出现的顺序排列，而在多文档摘要中，大多采用时间顺序排列句子，如何准确的得到每个句子的时间信息，也是多文档摘要需要解决的一个问题。

正如前面所说，自动文摘过程包含三个基本步骤，实现这些基本步骤的方法可以使基于句子抽取的，也可以是基于内容理解的。无论哪种方法，都必须面对三个关键问题：

(1)文档冗余信息的识别与处理

(2)重要信息的辨认

(3)生成文摘的连贯性

4.抽取式摘要优化点

（1）特征提取过程中，除了特征词的提取，还可以提取其他的基本要素来确定句子的重要性。如，句子的基本要素通过三元组<中心词，修饰，关系>来描述，其中中心词为该三元组的重要组成部分。

（2）在提取关键词之前，去掉停用词，然后在你计算词频等信息。为了扩展相同主题下可能出现的同义词现象，可以考虑利用同义词或者替换词、别称等信息提高词频统计的准确性。

（3）通过橘子的类型，对句子进行一次筛选。如，一般情况下，划分句子的时候可以记录句子出现的位置信息，在段落的开头或者结尾会有较大可能出现关键词。句型方面，陈述句一般比感叹句或者疑问句更有可能出现关键词。

（4）针对多文本输入的情况，在关键词提取中，可以使用频繁项集挖掘，并对频繁项集挖掘得到的词项赋予较高权重。

为了减少摘要句子之间的冗余度，可以通过计算句子之间的相似度减少冗余句子，具体过程如下：

（1）将句子按照其重要性由高到低排序

（2）抽取重要性较高的句子Si

（3）选取候选句子Si后，调整剩下的每个待选句子的重要性。待选句子Sj的重要性按照公式:Score(Sj)=Score(Sj)-Sim(Si,Sj)*Score(Si)

(4)剩下句子的重要度按照从高到低的顺序进行排序，选取重要度较高的句子。

（5）重复步骤3、4，直至摘要足够长为止。

转载于:https://my.oschina.net/u/2354614/blog/1539276

weixin_33724659

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_33724659 CSDN认证博客专家 CSDN认证企业博客

码龄9年

146: 原创

-: 周排名

53万+: 总排名

126万+: 访问

: 等级

7374: 积分

4022: 粉丝

250: 获赞

24: 评论

1172: 收藏

私信

关注

热门文章

最新评论

变量名存放在哪里？
糖炒Li儿: 讲得好清楚
变量名存放在哪里？
Be_yourself113: 由于我没学过最最基础的知识,我的理解是,由于是"copy",复制出来的那个5和待在常量区的那个5是"同一个".计算机是知道常量5所在的内存地址的,所以a需要用到5的时候,只需要知道5的地址就能够把5给copy过来,完成赋值操作,意思就是a里面放的其实是5的地址(这么说可能不太准,具体地址是不是存在a这块空间,我也不知道), 但可以肯定的是 a 是肯定知道本尊5 的地址的.这也能解释下面场景: int a = 5; int b = 5; 当我们打印 a 和 b的地址时,会发现完全相同. 简言之,计算机只需要告诉a (a这块空间) 常量5所在的地址,就能够完成赋值操作.
变量名存放在哪里？
Be_yourself113: 我的理解是,只存在一个常量5,然后这个5被copy两份分别给了a空间和b空间,由于是copy,所以a和b都指向了本尊5.学识尚浅(没真正的去学最基础的东西),只能作为理解,勿喷
java里如何实现循环打印出字符串或字符串数组里的内容
F椎: 这也不循环输出啊
Element源码分析系列4-Radio(单选框)
朝着大前端冲鸭: nextTick的作用就是增加异步，以便组件渲染后再执行逻辑

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。