BLIP 的demo运行遇到的问题

wahahoo

于 2024-09-12 17:14:08 发布

阅读量642

点赞数 12

文章标签：人工智能语言模型深度学习计算机视觉自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_60199131/article/details/142181217

版权

代码地址：GitHub - salesforce/BLIP: PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

运行demo.ipynb遇到的问题

1、OSError: Can't load tokenizer for 'bert-base-uncased'

OSError: Can't load tokenizer for 'bert-base-uncased'. If you were trying to load it from 'https://huggingface.co/models', make sure you don't have a local directory with the same name. Otherwise, make sure 'bert-base-uncased' is the correct path to a dir

此类报错如果用http://huggingface.co上的模型的话，经常遇到，其实这类错误的背后都是代码要使用“抱抱脸”上的模型但是下载不了，因此就报找不到这个文件夹之类的错误。

需要设置环境变量

set HF_ENDPOINT=https://hf-mirror.com

python XXXX

我的建议是在代码里直接指定

调用的文件from models.blip import blip_decoder，from models.med import BertConfig, BertModel, BertLMHeadModel就在models\blip.py，models\med.py里加入这个指令就行了。

import os

os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'

2、The size of tensor a (3) must match the size of tensor b (9)

RuntimeError: The size of tensor a (3) must match the size of tensor b (9) at non-singleton dimension 0

在进行张量操作时，两个张量的形状不匹配。在这个例子中，张量a的大小为3，而张量b的大小为9。 num_beams=3改为1

in order to solve this problem you need to set num_beams=1 not 3. (for instance in blip_vqa.py line 92)

直接在demo.ipynb# Image Captioning里修改就行

3、图片、权重可以下载下来在本地加载

#raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')

raw_image = Image.open(img_url).convert('RGB')

最后结果如下

关注

12
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

wahahoo CSDN认证博客专家 CSDN认证企业博客

码龄3年

18: 原创

104万+: 周排名

4万+: 总排名

2万+: 访问

: 等级

513: 积分

233: 粉丝

325: 获赞

15: 评论

434: 收藏

私信

关注

热门文章

分类专栏

YOLO 5篇
DETR 3篇

最新评论

YOLOv8 模型的大小及如何选择模型
maerceci526: yolo训练的时候只能是方的图片
制作车道线数据集--CULane格式的数据集
wahahoo: 之前只复现跑了一下，记不太清代码了，你看看代码 Ultra-Fast-Lane-Detection模型用的尺寸是1, 3, 288, 800，应该是模型预处理到288, 800。看你拍的图片尺寸，最简单的是完全按官方数据集格式来做呗，
制作车道线数据集--CULane格式的数据集
Haaach: 请问一下博主，开源的culane数据集的尺寸都是1640*590，博主制作自己的数据集的时候是有resize或填充等方法resize到这个尺寸吗，我有看到 plane1,397,453,3,283,an-00001.jpg,640,640 plane2,569,414,427,323,an-00002.jpg,640,640 这里是640*640的，请问这个只是博主举出的例子吗？我后续想要用Ultra-Fast-Lane-Detection对自己的culane数据集进行训练，不知道是否要转为和原始culane数据集一样的尺寸
YOLOv10：实时端到端目标检测（论文学习和代码运行）
梦想当极客的小芦: 还是不懂这个图2的b
Ultra-Fast-Lane-Detection代码学习与报错解决
CSDN-Ada助手: 恭喜作者发布了第14篇博客，分享了关于Ultra-Fast-Lane-Detection代码学习与报错解决的经验。持续不断地创作真的很不容易，你的努力和热情让读者受益匪浅。希望你能继续坚持下去，继续分享你的学习心得和经验，让更多的人受益。如果可能的话，可以考虑扩大话题范围，探索更多领域的知识，为读者带来更多惊喜和启发。期待你的下一篇作品，加油！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。