工业异常检测AnomalyGPT-训练试跑及问题解决

独鹿

已于 2024-01-11 20:09:16 修改

阅读量2.1k

点赞数 20

文章标签： linux 大模型人工智能 LLAMA 单卡4090跑大模型 AnomalyGPT

于 2024-01-11 20:04:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lijjianqing/article/details/135473918

版权

写在前面，AnomalyGPT训练试跑遇到的坑大部分好解决，只有在保存模型失败的地方卡了一天才解决，本来是个小问题，昨天没解决的时候尝试放弃在单卡的4090上训练，但换一台机器又遇到了新的问题，最后决定还是回来踏踏实实填坑了。

准备数据：（根据官方的提示直接准备就好）

Prerequisites: Before training the model, making sure the environment is properly installed and the checkpoints of ImageBind, Vicuna and PandaGPT are downloaded.

AnomalyGPT训练配置：

一张4090 24g显存，33g内存，batchsize8，cuda12.2 ,torch2.1.2(安装环境的时候也可以把requirements.txt的版本号都去掉，默认都装最新的)

问题1：报错localhost

raise ValueError(f"No slot '{slot}' specified on host '{hostname}'")
ValueError: No slot '1' specified on host 'localhost'

解决办法：原因是我电脑只有一张显卡，默认配置是两张，在脚本AnomalyGPT/code/scripts/train_mvtec.sh里改一下就好了；

问题2：scikit-image报没有安装

解决办法：安装一下

pip install scikit-image

问题3：deepseed版本不对

解决办法：requirements.txt里默认deepseed版本为deepspeed==0.9.2，我电脑需要至少0.9.3的版本，重新安装一下

pip install deepspeed==0.9.3

问题4：loraconfig找不到

解决办法：AnomalyGPT/code/model/openllama.py中加

from peft import LoraConfig, TaskType, get_peft_model

问题5：被kill

解决办法：cpu不够的时候不要开浏览器，不用开vscode等一切可能抢cpu的程序或应用，就小心翼翼开个terminal在里面进行训练。

问题6：NameError: name 'LlamaTokenizer' is not defined

解决办法：AnomalyGPT/code/model/openllama.py中加

from transformers import LlamaTokenizer

正常训练起来的样子：

问题7：保存模型的时候报错TypeError: cannot pickle 'torch._C._distributed_c10d.ProcessGroup' object

解决办法：保存出错是因为我cpu内存小，所以加载预训练的时候将模型参数加载到了gpu上（具体操作参考上一篇web_demo.py试跑），保存的时候需要参数在cpu上才行（为什么这样？后面看一下细节再解答）。

正常训练跑成功及模型保存成功的样子：

参考文献：

GitHub - CASIA-IVA-Lab/AnomalyGPT: The first LVLM based IAD method!

工业异常检测AnomalyGPT-Demo试跑-CSDN博客

关注

20
点赞
踩
30

收藏

觉得还不错? 一键收藏
9
评论
工业异常检测AnomalyGPT-训练试跑及问题解决

写在前面，AnomalyGPT训练试跑遇到的坑大部分好解决，只有在保存模型失败的地方卡了一天才解决，本来是个小问题，昨天没解决的时候尝试放弃在单卡的4090上训练，但换一台机器又遇到了新的问题，最后决定还是回来踏踏实实填坑了。
复制链接

扫一扫

独鹿 CSDN认证博客专家 CSDN认证企业博客

码龄12年

322: 原创

5万+: 周排名

8336: 总排名

34万+: 访问

: 等级

6284: 积分

98: 粉丝

137: 获赞

88: 评论

252: 收藏

私信

关注

热门文章

分类专栏

123 1篇
java 20篇
人工智能 6篇
操作系统 19篇
编程算法 51篇
机器学习 14篇
linux 19篇
caffe 5篇
python 76篇
c/c++ 1篇
tensorflow 8篇
深度学习 19篇
leetcode 165篇
数据结构 23篇
机器视觉 10篇
数据库 6篇
链表 18篇
二叉树 22篇
list 16篇
ARRAY 25篇
搜索树 1篇
图像处理 5篇
矩阵遍历 2篇
算法 21篇
剑指offer 9篇
GPU 2篇

最新评论

FundationPose4090
南柏良客: 如何跑自己的视频数据呀？这里面有如何获取mesh的代码吗？
工业异常检测AnomalyGPT-训练试跑及问题解决
我是无敌干饭王: pydantic.error_wrappers.ValidationError: 1 validation error for DeepSpeedZeroConfig offload_optimizer -> device value is not a valid enumeration member; permitted: 'none', 'cpu', 'nvme' (type=type_error.enum; enum_values=[<OffloadDeviceEnum.none: 'none'>, <OffloadDeviceEnum.cpu: 'cpu'>, <OffloadDeviceEnum.nvme: 'nvme'>]) 这是deepspeed问题么
工业异常检测AnomalyGPT-Demo试跑
我是无敌干饭王: 运行web_demo提交图片就显示error，报错显示为RuntimeError: probability tensor contains either `inf`, `nan` or element < 0
工业异常检测AnomalyGPT-Demo试跑
我是无敌干饭王: 同问题！！！请问解决了么
工业异常检测AnomalyGPT-Demo试跑
独鹿: 访问的时候把127这个地址改成你服务器地址试试

最新文章

目录

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。