风格迁移——CAP-VSTNet训练自己数据集并推理测试（详细图文教程）

最新推荐文章于 2025-03-12 09:01:27 发布

视觉研坊

最新推荐文章于 2025-03-12 09:01:27 发布

阅读量3.1k

点赞数 31

分类专栏： GAN 文章标签：迁移学习计算机视觉深度学习 pytorch

本文链接：https://blog.csdn.net/qq_40280673/article/details/138569235

版权

GAN 专栏收录该内容

2 篇文章

订阅专栏

在这里插入图片描述

一、CAP-VSTNet

CAP-VSTNet是2023年提出的风格迁移网络，它在处理风格迁移时表现出了优秀的性能。这个网络包括一个新的可逆残差网络和一个无偏线性变换模块，用于多功能风格转移。CAP-VSTNet的主要目标是解决内容相似度损失（包括特征和像素相似度）问题，这是导致逼真和视频风格迁移中出现伪影的主要问题。

根据相关研究，CAP-VSTNet在多功能风格转移上表现出了有效性，并且可以产生较好的定性和定量结果。这意味着CAP-VSTNet能够在保留内容相似性的同时，实现高质量的风格迁移。

二、源码包准备

本教程配套源码包获取方法文章末扫码到公众号「视觉研坊」中回复关键字：风格迁移CAP-VSTNet。获取下载链接。

官网源码包下载链接：CAP-VSTNet

论文：论文

在我提供的源码包中含有训练集和测试集，也包含已经训练好的模型权重文件，下载我提供的源码包解压后的样子如下：

在这里插入图片描述

三、环境准备

下面是我自己训练和测试的环境版本，仅供参考，其它版本也行：

在这里插入图片描述

四、数据集准备

4.1 源码包中数据集

我提供的源码包中有部分测试集，如下：

在这里插入图片描述

4.2 动漫风格数据集

动漫风格的数据集下载链接：https://link.zhihu.com/?target=https%3A//github.com/TachibanaYoshino/AnimeGAN/releases/download/dataset-1/dataset.zip

直接将上面链接复制到迅雷中下载，速度很快。

上面链接中数据集由6656张真实的风景照片组成，涵盖了三种独特的动漫风格：Hayao，Shinkai，和Paprika。每种风格的动漫图像都是通过从相应电影的视频帧中随机裁剪得到的。此外，数据集还包括各种尺寸的图像，以便进行测试。具体的数据集信息如下图所示：

在这里插入图片描述

此数据集中，部分动漫风格图如下：

在这里插入图片描述

4.3 MS_COCO数据集

MS_COCO数据集数据集比较大，里面都是现实生活中的照片，总共82783张照片，压缩包有12.58G，MS_COCO数据集下载链接为：MS_COCO数据集，此数据集也可以直接将连接复制到迅雷中下载，速度较快。

此数据集中部分图如下：

在这里插入图片描述

五、训练

5.1 训练配置参数修改

训练配置参数在train.py脚本中，参数很多，学者根据自己需求调整参数训练。

在这里插入图片描述

注：如果电脑显存较小，把batch_size设置为1。我自己训练，batch_size设为2时，显存大概占用8.6G。

5.2 开始训练

启动训练可以在trian.py脚本中修改好参数后直接点击run运行，或者使用命令方式训练。

在终端启动训练命令见下：

5.2.1 训练真实感模型

训练真实感模型使用命令：

python train.py --mode photorealistic --train_content data/train_content  --train_style data/train_stytle

5.2.2 训练艺术感感模型

训练艺术感感模型使用命令：

python train.py --mode artistic --train_content data/train_content  --train_style data/train_stytle --lap_weight 1 --rec_weight 1

5.3 训练过程

启动训练后，终端输出的训练过程如下：

在这里插入图片描述

5.4 模型输出保存

上面训练过程中的模型自动保存到根目录下的logs文件夹中，如下：

在这里插入图片描述

六、测试

6.1 单帧图片测试

6.1.1 测试配置参数修改

在这里插入图片描述

6.1.2 启动测试

启动测试有两种方法，第一种在image_transfer.py脚本中直接修改好参数，点击run运行。

第二种是在终端使用命令测试，见下：

6.1.2.1 真实感测试

真实感测试命令：

python image_transfer.py --mode photorealistic --ckpoint checkpoints/photo_image.pt --content data/content/01.jpg  --style data/style/01.jpg

6.1.2.2 艺术感测试

艺术感测试命令：

python image_transfer.py --mode artistic --ckpoint checkpoints/art_image.pt --content data/content/02.jpg  --style data/style/02.png

6.1.3 测试结果

测试结果自动保存到output文件夹中，如下：

在这里插入图片描述

6.2 视频测试

6.2.1 测试配置参数修改

在这里插入图片描述

6.2.2 启动测试

启动测试有两种方法，第一种在video_transfer.py脚本中直接修改好参数，点击run运行。

第二种是在终端使用命令测试，见下：

6.2.2.1 真实感测试

真实感测试命令为：

python video_transfer.py --mode photorealistic --ckpoint checkpoints/photo_video.pt --video data/content/03.avi  --style data/style/03.jpeg

6.2.2.2 艺术感测试

仪式感测试命令为：

python video_transfer.py --mode artistic --ckpoint checkpoints/art_video.pt --video data/content/04.avi  --style data/style/04.jpg

终端的实际输出如下：

在这里插入图片描述

最终的视频保存同6.1.3。

七、效果展示

7.1 单帧图片效果

下面展示图中，左侧为原始图，中间为风格图，右侧为风格迁移后的图：

在这里插入图片描述

7.1 视频效果

CSDN平台不能放视频，转换后的视频效果，我会上传到其它平台上，后续更新放视频链接。

八、总结

以上就是风格迁移CAP-VSTNet训练自己数据集并推理测试的详细图文教程，希望能帮你快速上手！

总结不易，多多支持，谢谢！

感谢您阅读到最后！关注公众号「视觉研坊」，获取干货教程、实战案例、技术解答、行业资讯！