风格迁移——CAP-VSTNet训练自己数据集并推理测试(详细图文教程)

在这里插入图片描述

一、CAP-VSTNet

CAP-VSTNet是2023年提出的风格迁移网络,它在处理风格迁移时表现出了优秀的性能。这个网络包括一个新的可逆残差网络和一个无偏线性变换模块,用于多功能风格转移。CAP-VSTNet的主要目标是解决内容相似度损失(包括特征和像素相似度)问题,这是导致逼真和视频风格迁移中出现伪影的主要问题。

根据相关研究,CAP-VSTNet在多功能风格转移上表现出了有效性,并且可以产生较好的定性和定量结果。这意味着CAP-VSTNet能够在保留内容相似性的同时,实现高质量的风格迁移。

二、源码包准备

本教程配套源码包获取方法文章末扫码到公众号「视觉研坊」中回复关键字:风格迁移CAP-VSTNet。获取下载链接。

官网源码包下载链接:CAP-VSTNet

论文:论文

在我提供的源码包中含有训练集和测试集,也包含已经训练好的模型权重文件,下载我提供的源码包解压后的样子如下:

在这里插入图片描述

三、环境准备

下面是我自己训练和测试的环境版本,仅供参考,其它版本也行:

在这里插入图片描述

四、数据集准备

4.1 源码包中数据集

我提供的源码包中有部分测试集,如下:

在这里插入图片描述

4.2 动漫风格数据集

动漫风格的数据集下载链接:https://link.zhihu.com/?target=https%3A//github.com/TachibanaYoshino/AnimeGAN/releases/download/dataset-1/dataset.zip

直接将上面链接复制到迅雷中下载,速度很快。

上面链接中数据集由6656张真实的风景照片组成,涵盖了三种独特的动漫风格:Hayao,Shinkai,和Paprika。每种风格的动漫图像都是通过从相应电影的视频帧中随机裁剪得到的。此外,数据集还包括各种尺寸的图像,以便进行测试。具体的数据集信息如下图所示:

在这里插入图片描述

此数据集中,部分动漫风格图如下:

在这里插入图片描述

4.3 MS_COCO数据集

MS_COCO数据集数据集比较大,里面都是现实生活中的照片,总共82783张照片,压缩包有12.58G,MS_COCO数据集下载链接为:MS_COCO数据集,此数据集也可以直接将连接复制到迅雷中下载,速度较快。

此数据集中部分图如下:

在这里插入图片描述

五、训练

5.1 训练配置参数修改

训练配置参数在train.py脚本中,参数很多,学者根据自己需求调整参数训练。

在这里插入图片描述

注:如果电脑显存较小,把batch_size设置为1。我自己训练,batch_size设为2时,显存大概占用8.6G。

5.2 开始训练

启动训练可以在trian.py脚本中修改好参数后直接点击run运行,或者使用命令方式训练。

在终端启动训练命令见下:

5.2.1 训练真实感模型

训练真实感模型使用命令:

python train.py --mode photorealistic --train_content data/train_content  --train_style data/train_stytle

5.2.2 训练艺术感感模型

训练艺术感感模型使用命令:

python train.py --mode artistic --train_content data/train_content  --train_style data/train_stytle --lap_weight 1 --rec_weight 1

5.3 训练过程

启动训练后,终端输出的训练过程如下:

在这里插入图片描述

5.4 模型输出保存

上面训练过程中的模型自动保存到根目录下的logs文件夹中,如下:

在这里插入图片描述

六、测试

6.1 单帧图片测试

6.1.1 测试配置参数修改

在这里插入图片描述

6.1.2 启动测试

启动测试有两种方法,第一种在image_transfer.py脚本中直接修改好参数,点击run运行。

第二种是在终端使用命令测试,见下:

6.1.2.1 真实感测试

真实感测试命令:

python image_transfer.py --mode photorealistic --ckpoint checkpoints/photo_image.pt --content data/content/01.jpg  --style data/style/01.jpg
6.1.2.2 艺术感测试

艺术感测试命令:

python image_transfer.py --mode artistic --ckpoint checkpoints/art_image.pt --content data/content/02.jpg  --style data/style/02.png

6.1.3 测试结果

测试结果自动保存到output文件夹中,如下:

在这里插入图片描述

6.2 视频测试

6.2.1 测试配置参数修改

在这里插入图片描述

6.2.2 启动测试

启动测试有两种方法,第一种在video_transfer.py脚本中直接修改好参数,点击run运行。

第二种是在终端使用命令测试,见下:

6.2.2.1 真实感测试

真实感测试命令为:

python video_transfer.py --mode photorealistic --ckpoint checkpoints/photo_video.pt --video data/content/03.avi  --style data/style/03.jpeg
6.2.2.2 艺术感测试

仪式感测试命令为:

python video_transfer.py --mode artistic --ckpoint checkpoints/art_video.pt --video data/content/04.avi  --style data/style/04.jpg

终端的实际输出如下:

在这里插入图片描述

最终的视频保存同6.1.3。

七、效果展示

7.1 单帧图片效果

下面展示图中,左侧为原始图,中间为风格图,右侧为风格迁移后的图:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

7.1 视频效果

CSDN平台不能放视频,转换后的视频效果,我会上传到其它平台上,后续更新放视频链接。

八、总结

以上就是风格迁移CAP-VSTNet训练自己数据集并推理测试的详细图文教程,希望能帮你快速上手!

总结不易,多多支持,谢谢!

感谢您阅读到最后!关注公众号「视觉研坊」,获取干货教程、实战案例、技术解答、行业资讯!

  • 28
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论
对于YOLO-Fastest训练自己的数据集并且在多目标情况下出现漏检的问题,有几个可能的原因和解决方法。 首先,可能是由于数据集质量不高导致的。确保你的数据集标注准确无误,并且包含了各种不同的目标。如果数据集中存在标注错误或者缺失标注的情况,这可能会导致模型在训练过程中无法学习到正确的目标检测信息。因此,仔细检查和修复数据集中的标注问题是很重要的。 其次,可能是由于训练参数设置不合理。YOLO-Fastest有一些重要的参数,比如学习率、批大小、训练迭代次数等,这些参数的选择会直接影响模型的训练效果。你可以尝试调整这些参数,例如增加学习率或者增加训练迭代次数,以获得更好的目标检测结果。 此外,你还可以考虑使用一些数据增强技术来改善模型的泛化能力。例如,可以尝试在训练过程中应用随机缩放、旋转、平移等操作来生成更多多样化的训练样本,以帮助模型更好地适应各种目标的尺度、角度和位置变化。 最后,如果上述方法都无法解决问题,你可以考虑尝试其他更复杂的目标检测模型,或者借助预训练模型进行迁移学习。这些方法可能会提供更好的性能和准确度。 总之,在训练YOLO-Fastest模型时,确保数据集质量、调整训练参数、使用数据增强技术以及尝试其他模型都是提高目标检测效果的常见方法。根据具体情况,你可以选择适合自己的方法来解决漏检问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

视觉研坊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值