抽取式文档摘要方法(二)

1、基于有监督学习的方法

可考虑众多因素,由机器学习算法确定句子重要性
句子分类
二类分类:句子是否隶属于摘要
SVM(支持向量机)

序列标注
为每个句子打上标签
可考虑相邻句子之间的关系
HMM(隐马尔科夫模型),CRF(条件随机场)

句子回归
为每个句子预测一个反映重要性的分数
SVR(支持向量回归)

这里写图片描述

2、基于神经网络的方法

 基于编码器-解码器框架进行单文档摘要
编码器:先对句子编码(利用CNN),再对文档编码(利用RNN)
解码器:输出一个0/1序列,进行句子抽取(序列标注)
这里写图片描述

这里写图片描述

摘要冗余去除

 去除(多文档)摘要中的冗余信息
选择与摘要中已有句子冗余度小的句子

文本蕴涵识别技术很适合此目的,但是由于自身性能太差,无法真正应用。一般基于文本相似度来进行判断。

3、基于整数线性规划(ILP)的方法

将摘要看做一个带约束的优化问题
基于ILP进行求解,可采用现成的ILP求解工具
比如IBM CPLEX Optimizer
同时进行句子抽取与冗余去除

这里写图片描述

4、基于次模函数的方法

 将摘要看做一个预算约束下的次模函数最大化问题
 设计次模函数,然后利用贪心算法进行内容选取

这里写图片描述

submodular次模函数

实际上就对“边际效用递减”这个说法的形式化。就是对于一个集合函数,若,那么在S中增加一个元素所增加的收益要小于等于在S的子集中增加一个元素所增加的收益。形式化表述就是:对于函数f而言,若且,则通俗的说就是你把所有商品看成一个集合,随着你所拥有的物品数量的增加,那么你获得剩下物品所得到的满足程度越来越小。

举例说明:
A是B的子集,则对于函数f(),如果:f(A+e)-f(A)>=f(B+e)-f(B)成立,则说f()函数是子模的。增益递减。
例子如下:
u={1,2,3,4,5,6,7,8} A={1,2,3} B={1,2,3,5,6}
f(A)=|A| 集合A的个数
所以:f(A+e)-f(A)>=f(B+e)-f(B),例如e={3,4,5}

这里写图片描述

5、摘要句子排序

 句子顺序直接影响摘要可读性
单文档摘要中句子顺序容易确定,依据句子在原文档中的顺序即可
多文档摘要中句子顺序较难确定

 来自不同文档中的句子如何确定先
后排序?
可综合考虑句子所在上下文信息进行排序。
先确定任何两句之间的先后顺序 机器学习、深度学习
再确定多个句子之间的整体顺序 贪心搜索

这里写图片描述

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值