GPT4平替?业界首个公开使用的通用文档理解多模态大语言模型mPLUG-DocOwl尝鲜报告...

关注公众号,发现CV技术之美

ChatGPT、GPT4发布以来,国内外已经出现了许多纯文本多模态的工作,在部分指标上也有着逼近甚至超越的势头。然而其中一个在GPT4技术报告中展示的能力“文档理解”却一直没有模型涉足。前几天,阿里巴巴达摩院发布了多模态大语言模型mPLUG-Owl的升级版mPLUG-DocOwl,专注提升通用文档理解能力,并在ModelScope上线了体验Demo。我们赶紧去看下文档理解这个难题被解决得怎么样了。

  • Github: https://github.com/X-PLUG/mPLUG-DocOwl

  • Paper: https://arxiv.org/abs/2307.02499

  • Demo: https://modelscope.cn/studios/damo/mPLUG-DocOwl/summary

ModelScope Demo 体验

点击https://modelscope.cn/studios/damo/mPLUG-DocOwl/summary就可以立刻体验了。

我先尝试了让它读一下GPT-4的维基页面。问了两个文中的内容,模型都能准确的抽取出答案来。

b0150d7dfc02b1d005ac5a046a0cf046.jpeg

看来这个抽取能力还不错。我再给它一个MDETR的论文图,看它能不能解释一下。

eafdfc338a16c9ab5499c1dd110de441.jpeg

看起来模型能识别到图中的各个模块以及它们之间的大致关联,但在细节上仍然有一些错误和遗漏。

我们再来看下它读论文图表的能力

d3b356559770cd84105459321286cabb.jpeg

这里不仅对图表的目的识别正确,而且对图表中哪种objective更好也回答正确了。

这里我又测试了一下模型理解代码的。

2348fabac4056fcca21a28e7da8cded7.jpeg

按论文里的说法,这个模型并没有在代码图像上训练过。尽管如此,DocOwl还是有一定的代码理解能力的,比如它能识别到这时Python编写的代码,但却认不出是什么算法。但比纯文本直接输入代码,它的理解效果还是不够理想的。

最后我们再试一下让它直接根据图片解释一下GRiT这个方法的优点。

591b9035eea027c13917a8e446e167aa.jpeg

可以看出它对图像内容的理解非常准确,并且也能结合自然语言知识做出详细的解释。

论文解读

从Demo体验来看,mPLUG-DocOwl已经能处理高分辨率的文档图片并能给出合适的回复了。但和GPT-4比在准确性和生成能力上还有明显差距。我们再来看一下DocOwl是如何达到这种文档理解能力的。

cc327fae28a103ebf018c276861e1f84.png

mPLUG-DocOwl是在mPLUG-Owl的基础上将6种类型的图片汇总成了一个统一范式的Instruction Tuning数据集。在这个基础上做进一步的指令微调,这使得模型即能识别文档,也能理解用户指令和意图,并做出自由回复。

aa4d261396891785881b0d4c1209c36e.png

实验结果表明mPLUG-DocOwl已经比肩甚至超越了文档专用模型Donut和Pix2Struct。

880cc9190ec0cd57ef03202ff58d17f7.png

模型在各类图片类型上都能有良好的表现。

0f8b75b7f5d8aba8539c0a694ccfcfe9.png 65e0f9777f203da60d45e205d87e4661.png

但同时也能发现,模型在复杂推理、数学计算以及创作性上仍然有不少局限性,有待未来的研究继续解决。

总结

mPLUG-DocOwl是既GPT-4后首个具备视觉文档理解能力的多模态大语言模型,通过文档类数据的指令微调,它让多模态模型mPLUG-Owl具备了理解文档图片的能力。实验也表明它不仅具备卓越的性能,还具有很强的泛化和指令理解能力。

62f2deabf5fda64a1df08db8568bd83e.jpeg

END

欢迎加入「大语言模型交流群👇备注:LLM

0ffb832e42046efd41704cb8433545ee.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值