AIxBoard部署BLIP模型进行图文问答

最新推荐文章于 2024-08-15 20:46:37 发布

vslyu

最新推荐文章于 2024-08-15 20:46:37 发布

阅读量286

点赞数 4

文章标签：深度学习 openvino

本文链接：https://blog.csdn.net/vslyu/article/details/141140977

版权

一、AIxBoard简介

AIxBoard（X板）是一款IA架构的人工智能嵌入式开发板，体积小巧功能强大，可让您在图像分类、目标检测、分割和语音处理等应用中并行运行多个神经网络。它是一款面向专业创客、开发者的功能强大的小型计算机，借助OpenVINO工具套件，CPU、iGPU都具备强劲的AI推理能力，基于 AI 的产品进行原型设计并将其快速推向市场的理想解决方案。

二、多模态模型简介

近年来，计算机视觉和自然语言处理领域各自都取得了飞速发展。但许多实际问题本质上其实是多模态的，即它们同时涉及几种不同形式的数据，如图像和文本。因此，需要视觉语言模型来帮助解决一系列组合模态的挑战，我们的技术才能最终得到广泛落地。视觉语言模型可以处理的一些图生文任务包括图像字幕生成、图文检索以及视觉问答。图像字幕生成可以用于视障人士辅助、创建有用的产品描述、识别非文本模态的不当内容等。图文检索可以用于多模态搜索，也可用于自动驾驶场合。视觉问答可以助力教育行业、使能多模态聊天机器人，还可用于各种特定领域的信息检索应用。

目前常用的SOTA多模态语言模型有BLIP、BLIP2、LLAVA等。

三、部署openvino_notebooks中视觉问答demo

本文拟选取BLIP模型在AIxBoard上部署，实现一个视觉问答的功能demo，其余更先进的BLIP2、LLAVA、GPT-4V待下次有空来研究。

下载官方的demo，并启动jupyter-lab notebooks

git clone https://github.com/openvinotoolkit/openvino_notebooks.git

cd .\openvino_notebooks\notebooks

jupyter-lab notebooks

仔细阅读blip-visual-language-processing.ipynb文档里面的内容，逐次执行

得到结果输出：

实验完成，可以切换尝试其他图片

vslyu

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
AIxBoard部署BLIP模型进行图文问答

近年来，计算机视觉和自然语言处理领域各自都取得了飞速发展。但许多实际问题本质上其实是多模态的，即它们同时涉及几种不同形式的数据，如图像和文本。因此，需要视觉语言模型来帮助解决一系列组合模态的挑战，我们的技术才能最终得到广泛落地。视觉语言模型可以处理的一些图生文任务包括图像字幕生成、图文检索以及视觉问答。图像字幕生成可以用于视障人士辅助、创建有用的产品描述、识别非文本模态的不当内容等。图文检索可以用于多模态搜索，也可用于自动驾驶场合。
复制链接

扫一扫