人脸修复祛马赛克算法CodeFormer——C++与Python模型部署

知来者逆

已于 2023-10-02 08:58:21 修改

阅读量9.2k

点赞数 4

分类专栏：计算机视觉 C++ python 文章标签： c++ python CodeFormer 人脸修复人脸祛除巴赛克深度学习人脸超分

于 2023-09-18 01:40:43 首次发布

本文链接：https://blog.csdn.net/matt45m/article/details/132830451

版权

本文介绍了基于深度学习的人脸复原模型CodeFormer，它由南洋理工大学和商汤科技联合开发，结合VQGAN和Transformer，可用于图像修复等领域。还探讨了盲人脸复原的挑战及处理方法。此外，讲解了该模型用C++的onnxruntime和Python进行推理部署的相关内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、人脸修复算法

1.算法简介

CodeFormer是一种基于AI技术深度学习的人脸复原模型，由南洋理工大学和商汤科技联合研究中心联合开发，它能够接收模糊或马赛克图像作为输入，并生成更清晰的原始图像。算法源码地址：https://github.com/sczhou/CodeFormer
这种技术在图像修复、图像增强和隐私保护等领域可能会有广泛的应用。算法是由南洋理工大学和商汤科技联合研究中心联合开发的，结合了VQGAN和Transformer。
VQGAN是一个生成模型，通常用于图像生成任务。它使用了向量量化技术，将图像编码成一系列离散的向量，然后通过解码器将这些向量转化为图像。这种方法通常能够生成高质量的图像，尤其在与Transformer等神经网络结合使用时。
Transformer是一种广泛用于自然语言处理和计算机视觉等领域的神经网络架构。它在序列数据处理中表现出色，也可以用于图像生成和处理任务。
在这里插入图片描述

在监控、安全和隐私保护领域，人脸图像通常会受到多种因素的影响，其中包括光照、像素限制、聚焦问题和人体运动等。这些因素可能导致图像模糊、变形或者包含大量的噪声。在这种情况下，尝试恢复清晰的原始人脸图像是一个极具挑战性的任务。
盲人脸复原是一个不适定问题（ill-posed problem），这意味着存在多个可能的解决方案，而且从有限的观察数据中无法唯一确定真实的原始图像。因此，在这个领域中，通常需要依赖先进的计算机视觉和图像处理技术，以及深度学习模型，来尝试改善模糊或受损图像的质量。
一些方法和技术可以用于处理盲人脸复原问题，包括但不限于：
深度学习模型: 使用卷积神经网络（CNN）和生成对抗网络（GAN）等深度学习模型，可以尝试从模糊或变形的人脸图像中恢复原始细节。
超分辨率技术: 超分辨率方法旨在从低分辨率图像中重建高分辨率图像，这也可以用于人脸图像复原。
先验知识: 利用先验知识，如人脸结构、光照模型等，可以帮助提高复原的准确性。
多模态融合: 结合不同传感器和信息源的数据，可以提高复原的鲁棒性。
然而，即使使用这些技术，由于问题的不适定性，完全恢复清晰的原始人脸图像仍然可能是一项极具挑战性的任务，特别是在极端条件下。在实际应用中，可能需要权衡图像质量和可用的信息，以达到最佳的结果。

2.算法效果

在官方公布修复的人脸效果里面，可以看到算法在各种输入的修复效果：
老照片修复
在这里插入图片描述
人脸修复

黑白人脸图像增强修复

人脸恢复

二、模型部署

如果想用C++进行模型推理部署，首先要把模型转换成onnx，转成onnx就可以使用onnxruntime c++库进行部署，或者使用OpenCV的DNN也可以，转成onnx后，还可以再转成ncnn模型使用ncnn进行模型部署。原模型可以从官方开源界面可以下载。
模型推理这块有两种做法，一是不用判断有没有人脸，直接对全图进行超分，但这种方法好像对本来是清晰的图像会出现bug，就是生成一些无法理解的处理。

1. C++使用onnxruntime部署模型

#include "CodeFormer.h"

CodeFormer::CodeFormer(std::string model_path)
{
   
	//OrtStatus* status = OrtSessionOptionsAppendExecutionProvider_CUDA(sessionOptions, 0);  ///nvidia-cuda加速
	sessionOptions.SetGraphOptimizationLevel(ORT_ENABLE_BASIC);
	std::wstring widestr = std::wstring(model_path.begin(), model_path.end());   ///如果在windows系统就这么写
	ort_session = new Ort::Session(env, widestr.c_str(), sessionOptions);   ///如果在windows系统就这么写
	///ort_session = new Session(env, model_path.c_str(), sessionOptions);  ///如果在linux系统，就这么写

	size_t numInputNodes = ort_session->GetInputCount();
	size_t numOutputNodes = ort_session->GetOutputCount();
	Ort::AllocatorWithDefaultOptions allocator;
	for (int i = 0; i < numInputNodes; i++)
	{
   
		input_names.push_back(ort_session->GetInputName(i, allocator));
		Ort::TypeInfo input_type_info = ort_session->GetInputTypeInfo(i);
		auto input_tensor_info = input_type_info.GetTensorTypeAndShapeInfo();
		auto input_dims = input_tensor_info.GetShape();
		input_node_dims.push_back(input_dims);
	}
	for (int i = 0; i < numOutputNodes; i++)
	{
   
		output_names.push_back(ort_session->GetOutputName(i, allocator));
		Ort::TypeInfo output_type_info = ort_session->GetOutputTypeInfo(i);
		auto output_tensor_info = output_type_info.GetTensorTypeAndShapeInfo();
		auto output_dims = output_tensor_info.GetShape();
		output_node_dims.push_back(output_dims);
	}

	this->inpHeight = input_node_dims[0][2];
	this->inpWidth = input_node_dims[0][3];
	this->outHeight = output_node_dims[0][2];
	this->outWidth = output_node_dims[0][3];
	input2_tensor.push_back(0.5);
}

void CodeFormer::preprocess(cv::Mat &srcimg)
{
   
	cv::Mat dstimg;
	cv::cvtColor(srcimg, dstimg, cv::COLOR_BGR2RGB);
	resize(dstimg, dstimg, cv::Size(this->inpWidth, this->inpHeight), cv::INTER_LINEAR);
	this->input_image_.resize(this->inpWidth * this->inpHeight * dstimg.channels());
	int k = 0;
	for (int c = 0; c < 3; c++)
	{
   
		for (int i = 0; i < this->inpHeight; i++)
		{
   
			for (int j = 0; j < this->inpWidth; j++)
			{
   
				float pix = dstimg.ptr<uchar>(i)[j * 3 + c];
				this->input_image_[k] = (pix / 255.0 - 0.5) / 0.5;
				k++;
			}
		}
	}
}

cv::Mat CodeFormer::detect(cv::Mat &srcimg)
{
   
	int im_h = srcimg