Google发布多模态SOTA：复杂表格YYDS，支持6种下游任务

本文链接：https://blog.csdn.net/Python_cocola/article/details/144477419

PaliGemma2 实战

from transformers import (       PaliGemmaProcessor,       PaliGemmaForConditionalGeneration,   )   from transformers.image_utils import load_image   import torch      model_id = "google/paligemma2-3b-ft-docci-448"      url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg"   image = load_image(url)      model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto").eval()   processor = PaliGemmaProcessor.from_pretrained(model_id)      # Instruct the model to create a caption in English   prompt = "caption en"   model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(torch.bfloat16).to(model.device)   input_len = model_inputs["input_ids"].shape[-1]      with torch.inference_mode():       generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)       generation = generation[0][input_len:]       decoded = processor.decode(generation, skip_special_tokens=True)       print(decoded)

PaliGemma 2解决的问题

模型的规模以及分辨率的影响：

PaliGemma 2提供了不同规模的模型（3B、10B、28B）
支持不同分辨率（224px², 448px², 896px²）的图像输入，适应各种视觉任务的需求。
下游任务的的迁移学习：
PaliGemma 2能迁移到30多个不同的学术任务，包括图像描述、视觉问答（VQA）等。
OCR任务：包括表格结构识别、分子结构识别、乐谱识别等。
图片描述任务：能生成包含丰富细节的长图像描述。
医学图像理解任务：在放射线报告生成等医学图像理解任务上表现出色。

PaliGemma 2的技术原理

模型架构：PaliGemma 2基于Gemma 2家族的语言模型，结合SigLIP-So400m视觉编码器。视觉编码器将图像转换为嵌入表示，基于线性投影映射到Gemma 2的输入空间。
核心思想：通过结合大规模的语言模型和高分辨率的视觉输入，提升模型在视觉语言任务上的性能。这种结合使得模型能够更好地理解和生成与视觉内容相关的语言描述。
多阶段训练：
预训练阶段：使用SigLIP-So400m视觉编码器和Gemma 2语言模型的预训练权重初始化PaliGemma 2。
联合训练阶段：联合预训练视觉编码器SigLIP-So400m和Gemma 2模型，在多模态任务上，以学习视觉和语言之间的关联。
提升分辨率阶段：依据上面三种分辨率，逐步提高输入图像的分辨率，以训练模型处理更高分辨率的视觉信息。
微调阶段：针对特定的下游任务对模型进行微调，以优化其在该任务上的性能。

PaliGemma 2下游任务

光学字符识别（OCR）

识别图像中的文字，用在文档数字化、历史文献存档和自动数据提取。

表格结构识别

从图像中提取表格结构和内容，用在财务报告分析、科学研究和数据整理。

对于复杂表格识别抽取能力相当强

图像识别与描述

自动生成图像的详细描述。

医学报告生成（VQA）

分子结构识别

在化学和生物医学研究中，识别和重建分子结构。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述