抽取式文档摘要方法(二）

仲夏199603

于 2017-11-29 13:17:28 发布

阅读量4.8k

点赞数

分类专栏：机器学习文本摘要深度学习自然语言处理文章标签：机器学习神经网络文档

深度学习同时被 3 个专栏收录

29 篇文章

订阅专栏

自然语言处理

13 篇文章

订阅专栏

12 篇文章

订阅专栏

1、基于有监督学习的方法

可考虑众多因素，由机器学习算法确定句子重要性
 句子分类
二类分类：句子是否隶属于摘要
SVM（支持向量机）

 序列标注
为每个句子打上标签
可考虑相邻句子之间的关系
HMM（隐马尔科夫模型），CRF（条件随机场）

 句子回归
为每个句子预测一个反映重要性的分数
SVR（支持向量回归）

这里写图片描述

2、基于神经网络的方法

 基于编码器-解码器框架进行单文档摘要
编码器：先对句子编码（利用CNN），再对文档编码（利用RNN）
解码器：输出一个0/1序列，进行句子抽取（序列标注）
这里写图片描述

这里写图片描述

摘要冗余去除

 去除（多文档）摘要中的冗余信息
选择与摘要中已有句子冗余度小的句子

文本蕴涵识别技术很适合此目的，但是由于自身性能太差，无法真正应用。一般基于文本相似度来进行判断。

3、基于整数线性规划（ILP）的方法

将摘要看做一个带约束的优化问题
基于ILP进行求解，可采用现成的ILP求解工具
比如IBM CPLEX Optimizer
同时进行句子抽取与冗余去除

这里写图片描述

4、基于次模函数的方法

 将摘要看做一个预算约束下的次模函数最大化问题
 设计次模函数，然后利用贪心算法进行内容选取

这里写图片描述

submodular次模函数

实际上就对“边际效用递减”这个说法的形式化。就是对于一个集合函数，若，那么在S中增加一个元素所增加的收益要小于等于在S的子集中增加一个元素所增加的收益。形式化表述就是：对于函数f而言，若且，则通俗的说就是你把所有商品看成一个集合，随着你所拥有的物品数量的增加，那么你获得剩下物品所得到的满足程度越来越小。

举例说明：
A是B的子集，则对于函数f()，如果：f(A+e)-f(A)>=f(B+e)-f(B)成立，则说f()函数是子模的。增益递减。
例子如下：
u={1,2,3,4,5,6,7,8} A={1,2,3} B={1,2,3,5,6}
f(A)=|A| 集合A的个数
所以：f(A+e)-f(A)>=f(B+e)-f(B)，例如e={3,4,5}

这里写图片描述

5、摘要句子排序

 句子顺序直接影响摘要可读性
单文档摘要中句子顺序容易确定，依据句子在原文档中的顺序即可
多文档摘要中句子顺序较难确定

 来自不同文档中的句子如何确定先
后排序？
可综合考虑句子所在上下文信息进行排序。
先确定任何两句之间的先后顺序机器学习、深度学习
再确定多个句子之间的整体顺序贪心搜索

这里写图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。