AIxBoard部署BLIP模型进行图文问答

一、AIxBoard简介

          AIxBoard(X板)是一款IA架构的人工智能嵌入式开发板,体积小巧功能强大,可让您在图像分类、目标检测、分割和语音处理等应用中并行运行多个神经网络。它是一款面向专业创客、开发者的功能强大的小型计算机,借助OpenVINO工具套件,CPU、iGPU都具备强劲的AI推理能力,基于 AI 的产品进行原型设计并将其快速推向市场的理想解决方案。

二、多模态模型简介

        近年来,计算机视觉和自然语言处理领域各自都取得了飞速发展。但许多实际问题本质上其实是多模态的,即它们同时涉及几种不同形式的数据,如图像和文本。因此,需要视觉语言模型来帮助解决一系列组合模态的挑战,我们的技术才能最终得到广泛落地。视觉语言模型可以处理的一些 图生文 任务包括图像字幕生成、图文检索以及视觉问答。图像字幕生成可以用于视障人士辅助、创建有用的产品描述、识别非文本模态的不当内容等。图文检索可以用于多模态搜索,也可用于自动驾驶场合。视觉问答可以助力教育行业、使能多模态聊天机器人,还可用于各种特定领域的信息检索应用。

        目前常用的SOTA多模态语言模型有BLIP、BLIP2、LLAVA等。

三、部署openvino_notebooks中视觉问答demo

        本文拟选取BLIP模型在AIxBoard上部署,实现一个视觉问答的功能demo,其余更先进的BLIP2、LLAVA、GPT-4V待下次有空来研究。

下载官方的demo,并启动jupyter-lab notebooks

git clone https://github.com/openvinotoolkit/openvino_notebooks.git

cd .\openvino_notebooks\notebooks

jupyter-lab notebooks

      仔细阅读blip-visual-language-processing.ipynb文档里面的内容,逐次执行

      得到结果输出:

实验完成,可以切换尝试其他图片

  1. AIxBoard爱克斯板
  2. 使用 BLIP-2 零样本“图生文”
  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值