RAG技术新篇章：多模态图片检索的深度解析

AI大模型-王哥

于 2024-08-19 11:42:11 发布

阅读量347

点赞数 11

文章标签： mysql 数据库 java 产品经理人工智能 AI大模型大模型

本文链接：https://blog.csdn.net/2401_84204413/article/details/141321616

版权

我在LlamaIndex和LangChain框架学习中，都有玩过RAG。最近准备开个RAG进阶系统，一起学习AI, 一起成长。欢迎点赞，留言交流。

前沿

[上篇]我们打理了pdf格式文件中非结构化的文本和结构化的table 混合的半结构化数据，学习了unstructured、MultiVectorRetriever等Advanced RAG的用法，但却没有去处理图片、声音、视频等非结构化数据。本文我们从大模型的角度，将单一文本模态，升级为多模态RAG。我们在这里主要处理下图片，让RAG有读图、搜图的能力。

多模态模型 Multi modal model

它可以处理多种模态的数据。比如文字、表格、图片都是不同的模态。根据这些内容，多模态模型能够更加完整和精确的对数据的理解。gpt-3.5-turbo 只能文生文，是单一模态的。OpenAI 近期发布的GPT4V就是一款多模态模型。除了文字，GPT4V还可以接受图片，并返回文字。下图就是GPT4V图像识别的demo。

PDF数据

我们使用到的pdf 文件是一份来自JP Morgan的每周[市场回顾]。

上图包含了文本、图表（图片）、表格等多模态、半结构数据。PDF就两页，方便我们分析RAG的功能和效果。

安装依赖，下载PDF

这个和上个项目一样，我们只要换下PDF地址就好了，代码不贴了，大家去上篇文章找。

... 依赖安装和上篇一样
!wget -o weekly_market_recap.pdf https://am.jpmorgan.com/content/dam/jpm-am-aem/americas/us/en/insights/market-insights/wmr/weekly_market_recap.pdf

OPENAI api_key

import os
os.environ["OPENAI_API_KEY"]="Your OpenAI API Key with access to GPT-4 version"

不同类型element

我们仍然使用的是partition_pdf函数，由unstructured库提供，抽取不同类型的内容elements。

# 创建了图片目录
!mkdir images

from typing import Any
from pydantic import BaseModel
from unstructured.partition.pdf import partition_pdf

images_path = "./images"
raw_pdf_elements = partition_pdf(
    filename="weekly_market_recap.pdf",
    extract_images_in_pdf=True, # 上篇为false, 现在GPT4了，鸟枪换炮
    infer_table_structure=True, # table 结构化数据
    chunking_strategy="by_title"
    ... # 一样的省略
    image_output_dir_path=images_path
)

我们将extract_images_in_pdf设置为True,并配置了image_output_dir_path。执行代码，一会儿，执行完成。下图展示了GPU消耗，这是因为用到了microsoft/table-transformer-struct-recognition模型。

我们执行!ls -alt images/ 代码看到了unstructured帮我们抽离的图片。

# 显示图片 pdf 里所有的图标都在这一张图片里
from IPython.display import Image
Image("images/figure-1-1.jpg")

图片摘要

上篇文章我们做了文本、表格摘要，现在来做图片摘要，我们写了一个类。

class ImageSummarizer:
    def __init__(self, image_path) -> None:
        self.image_path=image_path
        # 提示词希望LLM担任助理的角色，帮助给图片做摘要。摘要是基于图片的分析来做的，拿到摘要后可以用来做retrieval 也就是检索。
        self.prompt="""
            You are an assistant tasked with summarizing images for retrieval.
            These summaries will be embedded and used to retrieve the raw image.
            Give a concise summary of the image that is well optimized for retrieval.
        """
        
        def base64_encode_image(self):
            with open(self.image_path, "rb") as image_file:
                return base64.b64encode(image_file.read()).decode("utf-8")
        
        def summarize(self, prompt=Npne):
            base64_image_data = self.base64_encode_image()
            chat = ChatOpenAI(model="gpt-4-vision-preview", max_tokens=1000)
            response = chat.invoke(
            [
                HumanMessage(
                    content=[
                        {
                            type:"text",
                            "text" prompt if prompt else self.prompt
                        },
                        # 使用的是base64编码的图片
                        {
                            type: "image_url",
                            image_url:{"url":f"data:image/jpeg:base64,{base64_image_data}"}
                        }
                    ]
                )
            ])
            # 返回的就图片数据和LLM返回
            return base64_image_data, response.content

图片摘要处理

当我们有了ImageSummarizer类，就可以和上篇文章一样做原图片和summarize的关联。

image_data_list = []
image_summary_list = []

for img_file in sorted(os.listdir(images_path)):
    if img_file.endswith(".jpg"):
        summarizer = ImageSummarizer(os.path.join(images_path, img_file))
        data, summary = summarizer.summarize()
        image.data_list.append(data)
        imag_summary_list.append(summary)
image_summary_list

摘要中，介绍了图片中包含了三个独立的图表，包含了不同的经济和市场数据。分别介绍了三个图标包含的数据信息。

文本数据和table数据和上篇一样，此处略过。

MultiVectorRetriever 将原始数据和摘要数据关联

... 文字、ta b le省略
doc_ids = (str(uuid.uuid4() for _ in image_data_list))
summary_images = [    Document(page_content=s, metadata={id_key: doc_ids[i]})
    for i, s in enumerate(image_summary_list)
]
retriever.vectorstore.add_document(summary_images)
retriever.docstore.mset(list(zip(doc_ids, image_data_list)))

提问

query = "Which year had the highest holiday sales growth?"
chain.invoke(query)

我们可以看到图片中的第一个柱状图21年有个最高峰增长。RAG的回答也是正确的，我们今天的任务也达到了。

总结

unstructured 图片抽离
图片摘要过程

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

AI大模型-王哥

关注

11
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
RAG技术新篇章：多模态图片检索的深度解析

上篇文章我们做了文本、表格摘要，现在来做图片摘要，我们写了一个类。# 提示词希望LLM担任助理的角色，帮助给图片做摘要。摘要是基于图片的分析来做的，拿到摘要后可以用来做retrieval 也就是检索。"""content=[},# 使用的是base64编码的图片])# 返回的就图片数据和LLM返回当我们有了类，就可以和上篇文章一样做原图片和summarize的关联。摘要中，介绍了图片中包含了三个独立的图表，包含了不同的经济和市场数据。分别介绍了三个图标包含的数据信息。
复制链接

扫一扫