Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal LLM
多模态大型语言模型 (LLM) 在各种自然语言处理任务(包括从文档中提取数据)中表现出卓越的性能。但是,这些模型的准确性可能会受到文档平面内旋转(也称为倾斜)的显著影响,这是扫描文档的实际场景中的常见问题。本研究调查了文档偏斜对三种最先进的多模态 LLM 的数据提取准确性的影响:Anthropic Claude V3 Sonnet、GPT-4-Turbo 和 Llava:v1.6。我们专注于从合成生成的具有不同偏度的样本文档中提取特定实体。











