深度学习-NLP-自动摘要、图像描述

自动摘要:自动将文本转换生成简短摘要的信息压缩技术
要求:足够的信息量、较低的冗余度、较高的可读性

抽取式摘要:从原文中取句子,高分句子,去掉冗余。效果一般。
Text rank 步骤:
1.去除原文的一些停用词,度量每个句子的相似度,计算得分,迭代传播,直至误差小于某一个范围。
2.对关键句子进行排序,根据摘要的长度选择一定数量的句子组成摘要。

生成式摘要

根据输入的文本获得对原文本的语义理解,逐渐成为主流。
优点是对原文有更全面的把握,更符合摘要的本质
缺点:句子的可读性、流畅度不如抽取式的。

基本框架:seq2seq,编解码结构,都是使用RNN构成,使用双向RNN构成编码器,使用单向RNN构成解码器。

关键技术:注意力机制、指针机制、

注意力机制:引入:由于长距离依赖问题,RNN到后面输入单词已经丢失了相当一部分信息;编码生成的语义向量同样丢失了大量信息,与机器翻译相同,在摘要生成的任务中同样使用了注意力机制。

在这里插入图片描述

指针机制 pointer mechanism

seq2seq存在的问题是:
难以准确复述原文的事实细节、无法处理原文中的未登录词、生成的摘要中存在重复的片段

一方面通过seq2seq模型保持抽象生成的能力;另一方面通过指针机制直接从原文中取词,提高摘要的准确度和缓解OOV问题
在这里插入图片描述

覆盖机制

文本生成存在重复的问题,解决就是coverage机制。在预测的过程中维护一个coverage向量。
在这里插入图片描述
coverage向量表示过去每一笔预测中的分布的累计和,记录着模型已经关注过原文的那些词并且让这个向量影响当前步的attention计算。通过这样来避免持续关注到某些特定的词上面。

评价

自动评价指标ROUGE
ROYGE-n连续的n个词的质量

数据集:CNN/DailyMail

图像描述

生成对图像内容的自然语言的描述。
传统方法是通过人工设计的特征提取算子来提取图像的底层视觉特征,如几何、纹理、颜色等等。
问题:语义鸿沟的存在,底层的视觉特征无法对高维的语义特征进行有效的准确表达。

基于检索的方法依赖于文本描述库的大小,生成的描述不能正确适应各种场景。
基于模板的方法:将检索到的信息(可以通过检测器)组合或者将检索到的相关信息填入到预定义的语句模板的空白中。
在这里插入图片描述
缺陷:无法生成可变长度的图像描述,限制了不同图像描述之间的多样性,描述显得呆板不自然。

深度学习:LSTM/GRU
使用CNN作为encoder,使用LSTM作为decoder
开山文献:
• [Vinyals et al., 2015] O. Vinyals, A. Toshev, S. Bengio, and D. Erhan. Show and tell: A neural image caption generator. In CVPR, pages 3156–3164, 2015.
• [Xu et al., 2015] K. Xu, J. Ba, R. Kiros, K. Cho, A. C. Courville, R.
Salakhutdinov, R. S. Zemel, and Y. Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, pages 2048–2057,2015.

show and tell:

在这里插入图片描述
𝑆0为描述开始标记,𝑆i为第𝑖步生成的描述单词(在词汇表中的编号), SN为描述结束
标记, 𝑥i为第𝑖步生成的描述单词的词嵌入表示(通过词嵌入矩阵𝑊e和𝑆i获取)

思路:采用卷积神经网络(具体为GoogLeNet Inception V3)作为
Encoder部分,将图像编码为固定长度的向量,作为图像特
征映射
• 将图像特征映射送入作为Decoder部分的LSTM,逐步生
成图像描述。

注意 图像的特征映射X-1 只在 最开始作为LSTM的输入,而后LSTM的输入均为描述单词的词嵌入向量及上一步的LSTM状态输出
论文的解释是每一步都输入图像的特征映射没有效果提升反而会过拟合。

show,attend and tell

引入视觉注意力机制,在Decoder生成图像描述的过程中动态关注图像的显著区域。

在这里插入图片描述
具体流程:
1.VGG进行Encoder,编码图像为L个K维的向量,每个向量对应图像的一部分区域。
2.每一步基于图像特征向量a计算该步上下文向量(注意力机制),送入Decoder,生成图像描述
3.可通过简单的MLP和Softmax激活函数进行计算第𝑡步注意力概率向量

注意力层利用LSTM上一步的状态输出Ht-1计算上下文向量Zt,并作为第𝑡步LSTM的输入

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据集:

Flickr8K:8092张图像,每张图像包含5个不同描述,对图像中人物、目标、场景和活动进行了准确描述。描述平均长度为11.8个单词。• https://forms.illinois.edu/sec/1713398
Flickr30K:
• 对Flickr8K的扩展,包含31783张图像,158915条描述,其余同上。
• http://shannon.cs.illinois.edu/DenotationGraph/

MS COCO
可用于目标检测、实例分割和图像描述等任务。2014年发布
部分包含82783张训练集图像、40504张验证集图像和40775张测试集
图像,但是测试集图像描述注释非公开可用,因此大多会对训练集和验
证集进行二次划分,而不使用其测试集。http://cocodataset.org/
• GitHub开源工具包:https://github.com/tylin/coco-caption

评价指标

• BLEU-{1,2,3,4}
• 起初用于机器翻译质量评估,核心思想在于“待检测语句越接近参考语
句,则越好”。通
过对比待检测语句和参考语句在n-gram层面的相似
度进行评估,不考虑语法正确性、同义词和相近表达,仅在较短语句下
比较可信。
• METEOR
• 常用于机器翻译评估,首先对待检测语句与参考语句进行对齐(单词精准匹配、snowball stemmer词干匹配、基于WordNet数据集近义词匹配等),然后基于对齐结果计算相似度得分,解决了BLEU存在的一些缺陷。
• CIDEr
• 针对图像描述任务提出,将每个语句视为一篇文档,表示为tf-idf向量
形式,计算待检测语句和参考语句之间的余弦相似度进行评估。
• SPICE
• 针对图像描述任务提出,基于图的语义表示对描述中的目标、属性和关系进行编码,比之前的基于n-gram的度量方法能更准确的比较模型之
间的优劣。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值