将视觉效果转化为文字：人工智能图像字幕

WIZnet

于 2023-08-31 10:34:02 发布

阅读量224

点赞数

文章标签：人工智能

原文链接：https://maker.wiznet.io/Benjamin/projects/translating-visuals-into-words%3A-image-captioning-with-ai/?serob=4&serterm=month

版权

使用 W5100S-EVB-PICO 板进行的基本项目，利用复制的图像字幕模型生成图像描述

转发: Translating Visuals into Words: Image Captioning with AI

项目介绍

概述

在这个项目中，我们使用两块 W5100S-EVB-PICO 板。

1.第一块板连接Arducam和以太网，起到接收网络请求时将图片传输到网页的作用。

2.第二块板将通过“复制 API”以网址的形式执行图像到文本字幕，通过以太网连接提供来自第一块 PICO 板的图像，并将其显示在 ssd1306 OLED 屏幕上。

下面更详细地讨论这个问题。

用于图像字幕的模型

BLIP-2 是 Salesforce LAVIS 项目的一部分。 BLIP-2 是一种通用且高效的预训练策略，它利用了预训练视觉模型和大语言模型 (LLM) 的进步。 BLIP-2 在零样本 VQAv2 中超越了 Flamingo（得分为 65.0 vs 56.3），并在零样本字幕方面创下了新的最先进水平（在 NoCaps 上获得了 121.6 的 CIDEr 分数，而之前的最高分数为 113.2）。当与 OPT 和 FlanT5 等强大的法学硕士结合使用时，BLIP-2 推出了新的零样本指导视觉到语言生成功能，适用于一系列有趣的应用。

可在复制上测试模型

模型研究论文

安装及使用方法

进行中

输出

潜在的发展

该项目当前的重点是为图像添加标题并显示文本。然而，通过在未来添加扬声器，这可能会演变成针对视障人士或异常检测的应用程序以及各种其他项目想法。

贡献和反馈

始终欢迎对该项目的贡献和反馈。请使用 GitHub 问题跟踪器报告问题或创建拉取请求。

原文链接

WIZnet maker Github

文件

circuitpython - arducam
我稍微修改了代码以获得更稳定的连接。
micropython-captioning
使用 IMG2TXT 字幕 API 的代码

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。