使用sam微调自己的分割数据集（prompt_encoder为mask）

아이유_이지은

已于 2024-09-18 16:23:44 修改

阅读量310

点赞数 8

文章标签：人工智能计算机视觉 prompt

于 2024-09-18 15:28:43 首次发布

本文链接：https://blog.csdn.net/weixin_43479119/article/details/142332870

版权

文章目录

1. 前言

最近在进行图像分割的过程中想尝试一下sam的效果，发现网上大部分的微调都是基于point和bbox的教程参考，mask的教程很少，所以特此写文章记录一下自己的过程

2.开始微调sam

2.1定义dataset和dataload

1.需要注意的地方时sam要读取的数据格式为rgb的格式，我是使用cv2读取的图像要进行转换
2.batch_size需要设置为1（很重要）不然会报错，具体请看RuntimeError when using batch size > 1

 image = cv2.imread(f'xx.png')
 image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

2.2 定义模型，学习率和损失函数

# model init
model_type = 'vit_b'
checkpoint = 'sam_vit_b_01ec64.pth'
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
sam = sam_model_registry[model_type](checkpoint)
sam.to(device)
sam.train()
predictor = SamPredictor(sam)
print(f"finished loading sam")

# optimizer and scheduler
num_epochs = opt.epochs
lr = 1e-4
momentum = 0.937
weight_decay = 5e-4
optimizer = torch.optim.AdamW(sam.mask_decoder.parameters(), lr=lr, weight_decay=weight_decay)
BCEseg = nn.BCELoss().to(device)