图像修复模型
在 OpenVINO2024 的公开模型库中有一个图象修复的模型的,它支持使用mask作为参考,实现对输入的修复。模型来自:
https://github.com/shepnerd/inpainting_gmcnn.git
模型结构如下:
下载模型之后,通过OpenVINO的脚本支持一键转换为IR格式。下载命令行:
python downloader.py --name gmcnn-places2-tf
转换命令行:
python converter.py --name gmcnn-places2-tf
转换之后的模型输入格式如下:
Placeholder - [BCHW] = 1x3x512x680 BGR, 图象
Placeholder_1 - [BCHW] = 1x1x512x680 mask 单通道二值图象
输出格式如下:
1x3x512x680 BGR, 图象
场景文字检测模型
OpenVINO支持的场景文字检测是基于PixelLink模型,该模型是浙大联合阿里提出,其核心思想是基于图像分割来实现场景文字检测
比起之前的很多基于检测的场景文字检测模型来说在性能与准确率方面都有比较明显的提升。PixelLink网络模型架构如下:
其中CNN部分采用了VGG16做为特征提取网络,对输出分为两个部分
像素分割,判断每个像素是否为text/non-text
链接预测,对每个像素点八领域进行链接预测,如果是positive则合并为text像素,如果不是则放弃。
通过上述两步之后得到叠加的TEXT图像mask,对mask图像进行连通组件发现或者基于OpenCV的轮廓发现即可得到最终检测框输出。检测框输出分为两种
基于minAreaRect
基于boundingRect
水印自动移除
使用转换之后的模型,基于场景文字检测得到mask,然后基于图像inpaint模型完成修复,就实现了自动去水印。运行结果如下:
OpenVINO2024 + QT5 自动去水印 演示如下: