机器学习：利用卷积神经网络实现图像风格迁移 (一)

最新推荐文章于 2025-02-24 22:31:02 发布

Matrix_11

最新推荐文章于 2025-02-24 22:31:02 发布

阅读量2.8w

点赞数 11

分类专栏：机器学习文章标签：机器学习神经网络

机器学习专栏收录该内容

114 篇文章

订阅专栏

本文介绍了Prisma软件背后的算法原理，该原理基于2016年发表的一篇CVPR论文，利用预训练的VGG-19网络进行图像的艺术风格迁移。通过优化随机噪声图像，使其同时保留原始图像的内容特征和选定风格图像的艺术风格。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

相信很多人都对之前大名鼎鼎的 Prisma 早有耳闻，Prisma 能够将一张普通的图像转换成各种艺术风格的图像，今天，我们将要介绍一下Prisma 这款软件背后的算法原理。就是发表于 2016 CVPR 一篇文章，

“ Image Style Transfer Using Convolutional Neural Networks”

算法的流程图主要如下：

这里写图片描述

总得来说，就是利用一个训练好的卷积神经网络 VGG-19，这个网络在ImageNet 上已经训练过了。

给定一张风格图像 $a$ 和一张普通图像 $p$ ，风格图像经过VGG-19 的时候在每个卷积层会得到很多 feature maps, 这些feature maps 组成一个集合 $A$ ，同样的，普通图像 $p$ 通过 VGG-19 的时候也会得到很多 feature maps，这些feature maps 组成一个集合 $P$ ，然后生成一张随机噪声图像 $x$ , 随机噪声图像 $x$ 通过VGG-19 的时候也会生成很多feature maps，这些 feature maps 构成集合 $G$ 和 $F$ 分别对应集合 $A$ 和 $P$ , 最终的优化函数是希望调整 $x$ 让随机噪声图像 $x$ 最后看起来既保持普通图像 $p$ 的内容, 又有一定的风格图像 $a$ 的风格。

content representation

在建立目标函数之前，我们需要先给出一些定义: 在CNN 中, 假设某一 layer 含有 $N_{l}$ 个 filters, 那么将会生成 $N_{l}$ 个 feature maps，每个 feature map 的维度为 $M_{l}$ , $M_{l}$ 是 feature map 的高与宽的乘积。所以每一层 feature maps 的集合可以表示为 $F^{l} \in R^{N_{l} \times M_{l}}$ , $F_{ij}^{l}$ 表示第 $i$ 个 filter在 position $j$ 上的 activation。