多模态 AI 是零售业的未来吗？使用 GPT-4 Vision 和 MongoDB 矢量搜索探索智能产品发现

本文链接：https://blog.csdn.net/2401_85233349/article/details/141321927

生成式人工智能如何重新定义零售盈利能力

欢迎来到雲闪世界。想象一下这样的购物体验：您上传了一张心仪服装或商品的照片。片刻之后，您便会收到来自您喜爱的商店的个性化、AI 驱动的类似商品推荐。这是一种革命性的零售体验，由一款创新应用实现，该应用将生成式 AI 的强大功能（特别是GPT-4 Vision 等多模态模型）与 MongoDB 强大的数据管理功能相结合。

添加图片注释，不超过 140 字（可选）

这款应用不仅仅是一个概念，它已经变成了现实，改变了消费者发现产品的方式以及零售商与客户联系的方式。通过利用 GPT-4 Vision 的尖端功能进行图像分析和利用 MongoDB 进行高效数据处理，这款应用站在了智能产品发现新时代的前沿。

在本文中，我们将仔细研究这款应用的工作原理，剖析其代码以了解人工智能与数据库管理之间的相互作用。我们将探索它如何创造无缝且直观的用户体验，不仅让客户满意，还为零售商提供宝贵的见解。那么，让我们踏上这段技术探索之旅，了解这款应用如何重塑零售格局。

该应用程序在零售业的实际应用

该应用程序的影响远远超出了技术创新的范围；它正在改变零售业格局。从小型精品店到大型百货商店，零售商都在利用这款应用程序以更有意义和个性化的方式与客户建立联系。

时尚零售：在时尚界，这款应用改变了游戏规则。用户上传他们喜欢的服装或配饰的图片，应用会从零售商的库存中提供类似的选择。这不仅提高了客户满意度，还增加了销售额，因为用户可以发现他们可能找不到的产品。

作者创作的动画（附注：我尝试使用 draw io 来实现动态边缘）

家具和家居装饰：对于家具和家居装饰零售商，该应用可帮助客户找到与其现有家具相匹配或互补的物品，从而打造出统一的室内设计体验。这增强了客户参与度并简化了购物流程。

智能产品发现应用程序的架构概述

我们的智能产品发现应用程序的架构是一系列简化的交互和流程，旨在向用户提供精准的产品推荐。它的工作原理如下：

应用程序架构概述

用户互动：旅程从用户通过用户友好界面上传他们喜欢的产品图像开始。
图像分析：然后由 GPT-4 Vision 处理上传的图像，对图像进行分析以了解其内容和上下文。
向量嵌入：GPT-4 的分析被转换成向量嵌入，它们是适合数据库查询的数值表示。
MongoDB 向量搜索：使用嵌入，MongoDB 在其产品目录中进行向量搜索，以查找视觉和上下文相似的项目。
产品推荐：然后向用户展示与其初始形象最接近的一系列产品。

这种架构不仅有利于实现当前的功能，而且还可扩展以适应未来的发展，为应用程序的运行提供强大的框架。

GPT-4 视觉的作用

生成式人工智能，尤其是 GPT-4 Vision，是这一革命性应用的核心。这一人工智能模型是 OpenAI 的一项创新，旨在以非凡的准确度处理和解读图像。GPT-4 Vision 的功能不仅限于图像识别；它擅长掌握上下文细微差别、精确定位复杂细节，甚至根据视觉内容生成富有洞察力的描述和建议。这种能力对于我们的应用至关重要，因为用户可以上传所需产品或服装的图片，并期待获得精确且相关的建议。

MongoDB 在管理数据和向量搜索方面的强大功能

MongoDB 以其作为 NoSQL 数据库的稳健性而闻名，在管理此应用程序所涉及的大量数据方面发挥着关键作用。它的灵活性、可扩展性和快速处理能力使其非常适合处理大型和多样化的数据集，这是零售应用程序中的常见情况。在我们的应用程序中，MongoDB 不仅存储详细的产品信息（包括图像和描述），而且还利用其矢量搜索功能。此功能使数据库能够根据从图像中派生的向量（数字数组）执行有效的搜索。通过将图像数据转换为矢量格式，MongoDB 可以快速筛选大量集合以找到在视觉上与用户上传的图像相似的产品，从而快速而精确地补充 AI 的分析。

零售业中人工智能与数据库管理的协同作用

GPT-4 Vision 与 MongoDB 的集成，尤其是后者的矢量搜索功能，为零售业提供了一个强大的工具。GPT-4 Vision 的高级图像分析功能使应用程序能够从上传的图像中辨别用户偏好，而 MongoDB 则高效地处理产品数据库，方便快速访问相关信息。这种双重功能不仅提升了用户体验，还为零售商提供了强大的工具，可以更准确地了解和满足客户的偏好。

使用 Streamlit、OpenAI 和 MongoDB 实现增强型产品发现

设置和用户交互功能

该应用程序用户界面的核心是使用 Streamlit 构建的，Streamlit 是一款使用 Python 创建交互式 Web 应用程序的强大工具。您的代码首先要导入基本库，包括 Streamlit ( st)、OpenAI 和 MongoDB ( MongoClient)。该应用程序利用 Streamlit 创建了一个用户友好的界面，用户可以在其中上传产品图像、与 AI 交互进行分析以及查看产品推荐。关键功能（如upload_photo和）products_from_photo定义了核心用户交互，指导用户完成上传图像和接收 AI 驱动的洞察的过程。

<span style="color:rgba(0, 0, 0, 0.8)"><span style="background-color:#ffffff"><span style="background-color:#f9f9f9"><span style="color:#242424"><span style="color:#aa0d91">导入</span>streamlit<span style="color:#aa0d91">作为</span>st
<span style="color:#aa0d91">导入</span>openai
<span style="color:#aa0d91">从</span>openai<span style="color:#aa0d91">导入</span>OpenAI
<span style="color:#aa0d91">从</span>pymongo<span style="color:#aa0d91">导入</span>MongoClient
<span style="color:#aa0d91">导入</span>os
<span style="color:#aa0d91">导入</span>base64
<span style="color:#aa0d91">导入</span>请求
<span style="color:#aa0d91">导入</span>json 


<span style="color:#007400"># MongoDB 和 OPENAI 设置</span>
MONGO_URI = os.environ[ <span style="color:#c41a16">"MONGO_URI"</span> ] 

OPENAI_API_KEY = os.environ[ <span style="color:#c41a16">"OPENAI_API_KEY"</span> ] 

<span style="color:#007400"># 使用 OpenAI 的 API 获取给定文本的嵌入的函数。</span>
<span style="color:#aa0d91">def </span> get_embedding ( <span style="color:#5c2699">text</span> ): 
    client = OpenAI() 
    response = client.embeddings.create( 
    <span style="color:#5c2699">input</span> =text, 
    model= <span style="color:#c41a16">"text-embedding-ada-002"</span>
     ) 
    <span style="color:#aa0d91">return</span> response.data[ <span style="color:#1c00cf">0</span> ].embedding 


<span style="color:#007400"># 将图像编码为 base64 的函数</span>
<span style="color:#aa0d91">def </span> encode_image ( <span style="color:#5c2699">image_bytes</span> ): 
    <span style="color:#aa0d91">return</span> base64.b64encode(image_bytes).decode( <span style="color:#c41a16">'utf-8'</span> ) 

<span style="color:#007400"># 处理图像上传的函数</span>
<span style="color:#aa0d91">def </span> upload_photo (): 
    st.header( <span style="color:#c41a16">"上传您的产品照片"</span> ) 
    <span style="color:#007400"># 创建列</span>
    uploaded_image = st.file_uploader( <span style="color:#c41a16">"选择照片并上传"</span> , <span style="color:#5c2699">type</span> =[ <span style="color:#c41a16">'jpg'</span> , <span style="color:#c41a16">'png'</span> ]) 
    col1, col2, col3 = st.columns([ <span style="colo