TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models

本文是LLM系列文章,针对《TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models》的翻译。

TextHawk:探索多模态大型语言模型的高效细粒度感知

摘要

多模态大型语言模型(MLLM)在各种多模态任务上显示出令人印象深刻的结果。然而,大多数现有的MLLM并不适合面向文档的任务,这些任务需要细粒度的图像感知和信息压缩。在本文中,我们介绍了TextHawk,这是一种专门为面向文档的任务设计的MLLM,同时保留了MLLM的一般功能。TextHawk旨在通过设计四个专用组件来探索高效的细粒度感知。首先,提出了一种重新采样和重新排列(ReSA)模块,以减少文档文本中的冗余,降低MLLM的计算成本。我们通过提出可扩展位置嵌入(SPE)来探索对每个局部特征的位置进行编码,这可以保持各种图像大小的可扩展性。然后采用查询建议网络(QPN)在不同子图像之间动态初始化查询。为了进一步增强MLLM的细粒度视觉感知能力,我们设计了一种多级交叉注意力(MLCA)机制,该机制捕获了文档图像的层次结构和语义关系。此外,我们通过Gemini Pro丰富多模态文档数据,为面向文档的任务创建了一个新的指令调优数据集。我们在通用和面向文档的MLLM基准上进行了广泛的实验,结果表明TextHawk

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值