用多模态信息做 prompt,解锁 GPT 新玩法

每天给你送来NLP技术干货!


文 | 子龙
编 | 小轶

源 | 夕小瑶的卖萌屋

自多模态大火以来,井喷式地出现了许多工作,通过改造预训练语言模型,用图像信息来增强语义信息,但主要集中在几个 NLU 任务上,在 NLG 上的研究比较少。

今天要介绍的这篇 paper Multimodal Conditionality for Natural Language Generation 研究的任务场景则是以多模态信息作为条件做 conditional 的 NLG任务。这种任务设置有许多实际的应用场景。比如,生成商品介绍文案时,仅仅基于该商品的文字标题是不够的。如果能结合商品的图片,必然能够得到更贴切的文案。

这篇工作的模型基于 GPT2,而多模态信息则是以一种类似 prompt 的方式来使用。虽然方法比较简单直观,但具备一定通用性,未来或许有进一步挖掘的可能。

论文题目:
Multimodal Conditionality for Natural Language Generation

论文链接:
https://arxiv.org/pdf/2109.01229.pdf

cbcf4b10346be5697a54ed14ceb58cf2.png原理2972281e0e148fffc09c98ff8e58cec1.png

作者的想法其实十分简单,一切语言模型都是为了衡量一段文字序列的概率,即:

而如果引入了多模态的输入,就相当于在生成时多了一个条件,即条件概率为:

其中为多模态输入序列。

以文中生成商品文案的运用场景为例:

24e8c4611dace74ae19d3afcc6fa827b.png

这里的Product Title和Product Images就是作为生成Product Description时的“条件”。

那么如何将多模态序列引入到自然语言生成模型呢?

7f21ad1b49f0dd3df95dbfd86afe15e9.png

本文使用了一个十分直观的方法,称作MANTIS,将作为条件的多模态序列作为前缀放置到decoder输入序列的前面,进而中解码过程中分享多模态信息。其中图片输入借助ResNet-152,将最后一层输出用线性层映射到语言模型同一个空间中。而作为条件的文本输入,即这里的product title,和生成序列一同进行编码。

89a7ae6220cef4c583bca122363fd58c.png效果9b37259cee44c959d8c746b739248e97.png

数据集采用FACAD,提供了商品的标题和图片,目标是生成产品描述,效果如下:

aee1923f8a447c31edc2b70578585bfd.png4e9921cd4b7af6c363f2917dbea2fae5.png

文中提出的模型在所有指标中都取得了最优结果,相比于baseline,将BLEU4提升了0.8,CIDEr提升了7.2,METEOR提升了0.8,ROUGE-L提升了1.0。同时,由于衡量生成文本质量具有主观性,作者也进行了人工评分,结果表明MANTIS依然取得了最优结果。

c74d4a5fac1d562f41faf9df8f0ade7f.png从生成效果来看,生成的描述成功地结合了图片信息,使得描述更加准确,而非笼统的介绍。

98f578dd44246d043bca4cc07e7ff45b.png总结becbb326c7d51e445c3568bc79918b3b.png

这篇文章方法十分直观,但是结合最近火热的 Prompt,似乎又有了更多的启发。同样是生成,同样是加前缀,似乎给定条件的生成就是加上编码好的前缀?那么多模态未来能不能成为一种新的prompt呢?作者认为他们的模型可以借助各种不同的多模态条件生成,然而不得不说本文的方法对模态融合的部分做的马虎了些。本文只是单纯借助解码器进行融合,并没有在编码阶段就分享跨模态的信息。


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

73a40fe15dfad764ceda27125aa22dfa.png

记得备注呦

整理不易,还望给个在看!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值