如何用NLP技术和标题党说拜拜-文本摘要

最新推荐文章于 2024-05-04 12:30:15 发布

iofu728

最新推荐文章于 2024-05-04 12:30:15 发布

阅读量2.4k

点赞数 4

分类专栏： NLP 文章标签： Text summarization 文本摘要 NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iofu728/article/details/85236591

版权

文本摘要利用NLP技术在大数据环境下对文章进行概括，旨在解决标题党问题。早期方法包括词频、首段等特征值提取，现代方法涉及深度学习，如CNN与seq2seq模型。提取式方法通过评分召回重要句子，而生成式方法利用NN输出进行decoder操作。目前，CNN与seq2seq结合的模型效果较好，如ConvS2S，而强化学习如RLSeq2seq有助于优化seq2seq模型的生成质量。

摘要由CSDN通过智能技术生成

点这里排版好

拖延症拖了一个星期 ?‍♀️
然后在查文献的时候发现中文的资料比较少于是

文本摘要 算是NLP领域一个还实用的细分领域吧

其实按我的理解 文本摘要 是一个披着NLP外衣的CV领域内容(至于为什么请dalao往下面看)

想想一下每每看见震惊公交车上? 有男子做出如此不堪的事这样的标题

可能不自觉的就脑补一些你以为会发生的事

结果点开链接发现这根本就不是你想想的那会事

然后你会痛骂一身标题党小gg 然后默默的关闭了网页

如果在你点开链接之前已经有一个整理好的概述这个时候是不是标题党就一目了然了

文本摘要解决的就是在大数据环境下如何利用NLP技术对文章进行概括

`feature` era

早在上世纪五十年代就有学者开始研究Text Summarization问题提出利用诸如词频首段首句标题等等一些特征值对文章进行自动化概括

本质上来说这些都是属于特征工程范畴的工作利用一些人类认知上的明显的特征关系找到文章与生成的摘要之间的匹配关系

当然可以想象到纯人力挖掘特征能达到的效果有限

但限于算力的制约一直到近年随着深度学习在ImageNet上崭露头角才稍有起色

[外链图片转存失败(img-MDHFcY2t-1566641443683)(https://cdn.nlark.com/yuque/0/2018/png/104214/1545572810420-c4c705a5-0298-43cc-bc13-2170720f9236.png "")]

`Extractive` Vs `Abstractive`

因为我们已经对NLP领域问题分析的套路已经有一些认识

以上的思路主要是从文本中原有信息根据人类普遍意识上的认识提取出对应于文章的一段文字这是一种Extractive方法

很容易想到除了抽取之外还可以通过对NN Output的参数进行 decoder操作进行Abstractive操作

生成式的思维其实更符合人类习惯但相对于现有的技术而言效果会比较差

之前我们在多轮检索式对话中分析的也是抽取式的模型

我们对检索式的大致套路已经有所了解

先对原有的文本做一个表示可以是word 粒度的也可以是上下文粒度的

在QA问题上从基于表示的思路变换到基于交互的思路

但 QA问题和摘要问题侧重点不太一样

QA 更能反映NLP问题的时序性对话中上一句接着下一句

在对话过程中 Topic很重要非停用词很重要语言风格也很重要但Topic可能变化语言风格也可能变化停用词也许会变成至关重要的

对话系统侧重抓取时序上的信息

而Text summarization这个问题中侧重于Topic的挖掘时序上的信息变得没那么重要

直观上感受文本挖掘只要从一篇已有的文章中从排好队的词阵列中抽取这篇文章最重要的词组成它的摘要

这一点就和图像识别很类似-从一张已有的图片中根据像素分布抽取出能代表周围一块区域的特征

所以目前 Text Summarization 领域中效果比较好的还是CNN与seq2seq结合的模型

（当然QA也一样会用到CNN 那里的CNN做的也同样是抽象的功能）

`Extractive`

抽取特征的思路可以分为抽取主题和抽取指示符

抽取主题方法, 比如说浅语义LSA、LDA 词频主题词贝叶斯 et al.
- 这种方法侧重于试图寻找语义上的主题
指示符(你可以粗暴的理解为特征):
- 比如说: 句子长的可能是更重要的在文档中位置靠前的可能更重要具有Title中某些词的句子可能更重要

Extrative 然后根据这些方法对每个句子进行一个评分的操作

然后一样的套路根据这个评分召回可能重要的k个句子

再对这k个句子做加工比如说贪心的认为@1的是这个文章的摘要也有模型针对最大化整体一致性及最小化冗余进行优化

除了抽取特征的思路之外还有基于知识库（对vertical domain 进行分析）

Topic Words

在Toipic word是的思路下有诸如

词频阈值: 词频超过一个阈值的情况下它就是主题词
主题签名词: 有些时候主题可以通过多种多样的词语表示每个主题签名词的词频并不一定高
- 通过建立对数似然估计检验来识别这些 主题签名词
- 可以是计算主题签名词数量的频次（偏向长句子）
- 也可以是计算主题签名词的占比句子中总词数的比例（偏向高主题词密度句）

Frequent-driven

词频方法较为简单主要是直接算词频或者利用Tf-Idf计算词频

Latent Semantic Analysis

浅语义主要就是做矩阵分解计算SVD 那么得到的中间矩阵就可以看作为原矩阵的Topic

当然 LSA之后还有基于Dirichlet分布的LDA

Graph Method

基于PageRank的思想把文章抽象为graph 其中句子代表graph中的节点边权值则为句子和句子之间的相似度

最简单的相似度的做法就是 Tf-idf

要想获得更好的效果可以尝试用一下QA中使用的基于基于交互、双向GRU、Transform等等办法

计算出各边值之后就按照PageRank的思路计算重要节点这些重要节点就是我们需要的摘要句子

讲到这里我们不难想到如何把之前多轮检索式对话系统中用到的计算context-reply之间关联度的方法用在这里

可能会有不错的效果但老年人不能安逸与现状对吧检索式我们做过了生成式还没有实践过 so ?

Graph方法比较有名的比如说LexRank, TextRank

Mechanical Learning

本质上 抽取式文本摘要 也是一个分类问题把所有文本分类为是文本摘要和不是文本摘要的

分类问题就有很多操作的空间比如说用朴素贝叶斯决策树 SVM HMM

但样本集标注信息较难取得故有学者提出半监督的模型

通过同时训练两个分类器每次迭代时把具有最高分的未标记训练集扔到标记训练集中以此迭代

`Abstractive`

随着NN及seq2seq对机器翻译上表现出的显著提升

相应的技术也逐渐应用在Text Summarization领域上

实际上在文本摘要这个领域中很多技术是借鉴与机器翻译的

比如说受到NMT(Neural Machine Translation)中Attention和NN的应用的启发，有学者提出NNLM(Neural Network Language Model)结构

之后有人用RNN代替NNLM 比如说ABS什么的

在这样的模型中会出现几个问题

不能像抽取式一样获取到文本的重要消息
无法处理OOV(out-of-vocabulary)问题
- 当然我觉得OOV是预处理不好产生的问题
- OOV就是test dataset中存在train model建立的词表中没有的词
- 像这个问题可以简单粗暴的把OOV用零向量或者<UNK>代替丢到NN中训练
- 也可以用char-level粒度的模型
- 要么优化你的分词器
- 再有就是用FastText

最低0.47元/天解锁文章

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
如何用NLP技术和标题党说拜拜-文本摘要

文本摘要综述
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。