自动摘要生成(一）：最大边界相关算法(MMR)

最新推荐文章于 2024-06-05 16:50:48 发布

置顶

zjrn

最新推荐文章于 2024-06-05 16:50:48 发布

阅读量1.3w

点赞数 6

分类专栏： NLP 摘要生成文章标签： NLP 新闻摘要 MMR 自然语言处理语义相似度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZJRN1027/article/details/81136761

版权

分享一下前一段时间公司需要做的文章自动摘要。一.摘要方法目前来说，文章摘要自动生成主要分为两种方法：生成式和抽取式。生成式采用sequence2sequence+Attention的模型，采用Encoder-Decoder的结构，具体方法可以阅读这篇论文：https://arxiv.org/pdf/1509.00685.pdf抽取式则是通过关键词筛选等方法，从原文中截取句子组成摘要...

摘要由CSDN通过智能技术生成

分享一下前一段时间公司需要做的文章自动摘要。

一.摘要方法

目前来说，文章摘要自动生成主要分为两种方法：生成式和抽取式。

生成式采用sequence2sequence+Attention的模型，采用Encoder-Decoder的结构，具体方法可以阅读这篇论文：https://arxiv.org/pdf/1509.00685.pdf

抽取式则是通过关键词筛选等方法，从原文中截取句子组成摘要，目前的方法有MMR，TextRank，LDA等。

起初尝试了生成式摘要，使用文章的标题作为样本标签，对模型进行训练，但是效果不是很好，生成的摘要中包含了标题中的关键字，但是无法组成正确的语序。所以最终决定采用抽取式来生成新闻摘要。

后续两种方法在这里：

自动摘要生成(二）：由PageRank转变而来的TextRank算法

自动摘要生成(三）：词向量相似度与有效词含量

二.具体算法

经过测试后，决定采用MMR，TextRank，文章标题相似度，TextRank+Embedding，全文词向量叠加Embedding相似度，这几种方法的加权组合，筛选出新闻的摘要。

本篇重点讲解MMR算法的理论和实现。

MMR

1.MMR原理

MMR是Maximal Marginal Releuance的缩写，中文为最大边界相关算法或最大边缘相关算法。

设计之初是用来计算Query语句与被搜索文档之间的相似度，从而对文档进行rank排序的算法。

公式在这：

当我们将MMR用于新闻摘要提取时，可以将Query看做是整篇文档，对公式稍作修改，变成下面这个样子：

最低0.47元/天解锁文章

关注

6
点赞
踩
63

收藏

觉得还不错? 一键收藏
17
评论
自动摘要生成(一）：最大边界相关算法(MMR)

分享一下前一段时间公司需要做的文章自动摘要。一.摘要方法目前来说，文章摘要自动生成主要分为两种方法：生成式和抽取式。生成式采用sequence2sequence+Attention的模型，采用Encoder-Decoder的结构，具体方法可以阅读这篇论文：https://arxiv.org/pdf/1509.00685.pdf抽取式则是通过关键词筛选等方法，从原文中截取句子组成摘要...
复制链接

扫一扫

专栏目录

zjrn CSDN认证博客专家 CSDN认证企业博客

码龄7年

70: 原创

5万+: 周排名

206万+: 总排名

28万+: 访问

: 等级

2747: 积分

126: 粉丝

223: 获赞

159: 评论

783: 收藏

私信

关注

分类专栏

Python 9篇
论文研读
NLP 29篇
LeetCode 47篇
TensorFlow 4篇
知识图谱 14篇
Linux 1篇
摘要生成 3篇
机器学习 4篇

最新评论

TensorFlow 2.1.0 使用 TFRecord 转存与读取文本数据
洛兮银儿: 什么都有给钱了现在csdn
文本分类模型第二弹：HAN(Hierarchy Attention Network)
安排653: HAN模型有基于pytorch框架实现的吗
基于Tensorflow的LSTM-CNN文本分类模型
欣坚强: 你好，现在我是想用CNN+LSTM实现股票预测，我的LSTM是完全手写的，所以就遇到了问题。就是，我设计了三层CNN，CNN输入的维度是（1，1，N）（N代表就是不确定），CNN最后还有一个flaten，那最终得到（1，M）。之后，就拿着这个进入LSTM层，由于M是不确定的，所以我想一个一个地输入到LSTM层里面去。那在一个一个预测的里面，需要进行LSTM的反向传播，那我是用LSTM的预测值与输入到LSTM层的CNN输出的值计算loss吗？还有就是，由于LSTM层手写，反向传播也是自己手写，那么，CNN反向传播我还可不可以用pytorch的自动求导机制啊？
文本分类模型第二弹：HAN(Hierarchy Attention Network)
草莓蛋糕yydz: 博主你的git账号是？
基于Tensorflow的LSTM-CNN文本分类模型
weixin_44062915: 请问找到test的代码了吗？

大家在看

最新文章

目录

评论 17

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。