OpenCV4 部署DeepLabv3+模型

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

本文转自:opencv学堂

引言

前面说了OpenCV DNN不光支持图像分类与对象检测模型。此外还支持各种自定义的模型,deeplabv3模型是图像语义分割常用模型之一,本文我们演示OpenCV DNN如何调用Deeplabv3模型实现图像语义分割,支持的backbone网络分别为MobileNet与Inception。预训练模型下载地址如下:

https://github.com/tensorflow/models/blob/master/research/deeplab/g3doc/model_zoo.md

预训练的模型下载之后可以看到pb文件,ckpt文件,其中pb文件可以直接调用。

调用MobileNet的deeplabv3

下载MobileNet版本的deeplabv3模型,把mobilenetv2 ckpt转pb,脚本如下:

python deeplab/export_model.py \
--logtostderr \
--checkpoint_path="/home/lw/data/cityscapes/train/model.ckpt-2000" \
--export_path="/home/lw/data/pb/frozen_inference_graph.pb" \
--model_variant="mobilenet_v2" \
#--atrous_rates=6 \
#--atrous_rates=12 \
#--atrous_rates=18 \
#--output_stride=16 \
--decoder_output_stride=4 \
--num_classes=6 \
--crop_size=513 \
--crop_size=513 \
--inference_scales=1.0

接下来使用opencv加载mobilenetv2转换好的pb模型会报下面的错误:

使用mobilenetv2的解决办法:

import tensorflow as tf
from tensorflow.tools.graph_transforms import TransformGraph
from tensorflow.python.tools import optimize_for_inference_lib


graph = 'frozen_inference_graph.pb'
with tf.gfile.FastGFile(graph, 'rb') as f:
     graph_def = tf.GraphDef()
     graph_def.ParseFromString(f.read())
     tf.summary.FileWriter('logs', graph_def)
     inp_node = 'MobilenetV2/MobilenetV2/input'
     out_node = 'logits/semantic/BiasAdd'
     graph_def = optimize_for_inference_lib.optimize_for_inference(graph_def, [inp_node], [out_node],
                                                                   tf.float32.as_datatype_enum)
     graph_def = TransformGraph(graph_def, [inp_node], [out_node], ["sort_by_execution_order"])


with tf.gfile.FastGFile('frozen_inference_graph_opt.pb', 'wb') as f:
     f.write(graph_def.SerializeToString())

调用Inception的deeplabv3

接下来使用opencv加载xception转换好的pb模型

使用xception的解决办法

import tensorflow as tf
from tensorflow.tools.graph_transforms import TransformGraph
from tensorflow.python.tools import optimize_for_inference_lib
graph = 'frozen_inference_graph.pb'
with tf.gfile.FastGFile(graph, 'rb') as f:
    graph_def = tf.GraphDef()
    graph_def.ParseFromString(f.read())
    tf.summary.FileWriter('logs', graph_def)
    # inp_node = 'sub_2'  # 起始地节点
    # out_node = 'logits/semantic/BiasAdd' # 结束的节点
    graph_def = optimize_for_inference_lib.optimize_for_inference(graph_def, [inp_node], [out_node],
                                                                  tf.float32.as_datatype_enum)
    graph_def = TransformGraph(graph_def, [inp_node], [out_node], ["sort_by_execution_order"])

with tf.gfile.FastGFile('frozen_inference_graph_opt.pb', 'wb') as f:
    f.write(graph_def.SerializeToString())

使用opencv进行推理(我用的是ADE20K预训练模型进行测试的)

import cv2
import numpy as np
np.random.seed(0)
color = np.random.randint(0, 255, size=[150, 3])
print(color)
# Load names of classes
#classes = None


#with open("labels.names", 'rt') as f:
#    classes = f.read().rstrip('\n').split('\n')


#legend = None
#def showLegend(classes):
#    global legend
#    if not classes is None and legend is None:
#        blockHeight = 30
#        print(len(classes), len(colors))
#        assert(len(classes) == len(colors))
#        legend = np.zeros((blockHeight * len(colors), 200, 3), np.uint8)
#        for i in range(len(classes)):
#            block = legend[i * blockHeight:(i + 1) * blockHeight]
#            block[:, :] = colors[i]
#            cv2.putText(block, classes[i], (0, blockHeight//2), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (255, 255, 255))
#        cv2.namedWindow('Legend', cv2.WINDOW_NORMAL)
#        cv2.imshow('Legend', legend)
#        cv2.waitKey()


# 读取图片
frame = cv2.imread("1.jpg")
frameHeight = frame.shape[0]
frameWidth = frame.shape[1]


# 加载模型
net = cv2.dnn.readNet("frozen_inference_graph_opt.pb")
blob = cv2.dnn.blobFromImage(frame, 0.007843, (513, 513), (127.5, 127.5, 127.5), swapRB=True)
net.setInput(blob)
score = net.forward()
numClasses = score.shape[1]
height = score.shape[2]
width = score.shape[3]

classIds = np.argmax(score[0], axis=0)  # 在列上求最大的值的索引
segm = np.stack([color[idx] for idx in classIds.flatten()])
segm = segm.reshape(height, width, 3)

segm = cv2.resize(segm, (frameWidth, frameHeight), interpolation=cv2.INTER_NEAREST)
frame = (0.3*frame + 0.8*segm).astype(np.uint8)

#showLegend(classes)

cv2.imshow("img", frame)
cv2.waitKey()

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

要实现Deeplabv3+模型训练后输出的图像中识别到的目标显示为黑色,而其他区域颜色保持与输入图像相同,可以通过图像后处理来实现。具体步骤如下: 1. 首先,确保你的模型已经训练完毕,并且能够产生正确的分割掩码(mask),该掩码表明每个像素点所属的类别。 2. 将模型输出的分割掩码与输入图像的大小对齐,并转换成适合于图像操作的数据类型(比如uint8或uint16)。 3. 创建一个与输入图像大小相同的黑色背景图像。 4. 将分割掩码中识别到的目标对应的区域(即标记为相应类别的像素)在黑色背景图像上进行覆盖。 5. 最后,将处理后的黑色背景图像与输入图像进行逐像素的叠加,这样就实现了目标显示为黑色,其他区域保持原样的效果。 具体到代码实现,这可以使用各种图像处理库来完成,如OpenCV、PIL等。以下是使用PythonOpenCV库的一个简单示例: ```python import cv2 import numpy as np # 假设已经加载了输入图像和模型输出的分割掩码 input_image = cv2.imread('input_image.png') segmentation_mask = model_output_mask # 创建黑色背景图像 black_background = np.zeros_like(input_image) # 将分割掩码对应的目标区域覆盖到黑色背景上 # 假设掩码中目标类别为1,背景类别为0 black_background[segmentation_mask == 1] = [0, 0, 0] # 将黑色背景图像与输入图像叠加 output_image = input_image.copy() output_image[segmentation_mask == 1] = black_background[segmentation_mask == 1] # 保存或显示最终结果 cv2.imwrite('output_image.png', output_image) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值