一口气看8页！旷视提出Fox：图文并茂的文档交互式多模态大模型

最新推荐文章于 2025-06-05 22:56:29 发布

Amusi（CVer）

最新推荐文章于 2025-06-05 22:56:29 发布

阅读量385

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247599871&idx=3&sn=38879369eaa2c9ed596471a1b7da993b&chksm=f8056f1de2270ee04900ad6e72f929ac10dc8bde8702dfa99c6f7f2d2a5ff69328423e913746&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba/扩散/多模态】交流群

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

导读

最近，旷视打造了一支多模态大模型的“点读笔”-Fox，轻松实现对8页文档（中英混合，单栏多栏格式混合的极端场景）的交互式感知理解。

对于信息密集的PDF文档，Fox支持高可控性的细粒度理解，比如在用户感兴趣区域内进行文字识别、段落翻译以及页面内部的图片内容描述等。

“一图胜千言”—— one image token >> one text token。本文中，我们进一步突破了对于文档的视觉感知理解的上限，高密度的信息被真正压缩，LVLM真正地“看”懂图，才能真正做好、做出能用的文档多模大模型。更多细节请看我们的paper。

论文地址：https://arxiv.org/abs/2405.14295

代码地址：https://github.com/ucaslcl/Fox

项目主页：https://ucaslcl.github.io/foxhome/

Fox的效果展示：

（1）中英混合、单栏多栏混合的8页PDF文档，任意区域的OCR：

（2）下图左侧展示了8页文档内跨页的VQA。右侧展示了双栏中文页面的前景OCR。

（3）双栏密集英文页面的前景OCR：

（4）页面内图片描述： Fox能给出文档内内容关联的回答（young Dual Language Learners）。当然Fox还支持line-level OCR，以及对RoI区域的翻译、总结等。

（5）Fox可以结合页面内文字，认识到这是一张关于global seismic hazards的图。此外，Fox还支持RoI内的latex格式转换，例如下面的table转latex。Fox还支持更加灵活的颜色引导的RoI区域OCR。

（6）对于卡通绘本，也可以哪里不会点哪里：

（7）电影海报和自然场景的对话问答，Fox给出了非常有趣的答案（根据电影海报下面的文字给出了角色来源）：

方法简介

Fox的模型结构如上图所示。Fox支持单页/多页文档图像输入，所有图像的image token被统一到一个sequence中进行多页文档理解。我们设计了基于point、color、box的prompt，来实现在文档页面上聚焦任意位置。我们合成了图文交织的文档数据，来充分催化两个视觉词表，以更好地适用于实际文档应用场景。

此外，为了促进对文档细粒度理解的研究，作者还打造了一个中英双语的benchmark，已经开源了数据和评测代码，共包含以下9种任务：
(1) Page-level OCR
(2) Region-level OCR
(3) Line-level OCR
(4) Color-guided OCR
(5) Region-level translation
(6) Region-level summary
(7) In-document figure caption
(8) Multi-page multi-region OCR
(9) Cross-page VQA

总结

我们呼吁更多的研究人员能关注到细粒度的单页/多页文档理解，单页的稀疏的问答任务远远不够。

真正做好多模态大模型，视觉编码器的信息压缩率（token转化率）是非常重要的，Fox仅探究了文档这一类应用方向。希望对大家的研究有所帮助！

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer5555，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看