A Neural Algorithm of Artistic Style--码农的文艺梦

最新推荐文章于 2021-03-01 21:12:20 发布

忘情摆渡

最新推荐文章于 2021-03-01 21:12:20 发布

阅读量1.1k

点赞数 1

分类专栏：深度学习论文文章标签：算法艺术深度学习-论文阅读

本文链接：https://blog.csdn.net/wangqingbaidu/article/details/52649787

版权

深度学习论文专栏收录该内容

9 篇文章 0 订阅

订阅专栏

A Neural Algorithm of Artistic Style

最新论文，实时style转化，欢迎参考Perceptual Losses for Real-Time Style Transfer
想搞艺术装逼的瞧这里，我可以把照片转化成艺术照了。

+ =

这篇论文简单粗暴，纯应用方面的论文，就不进行各种蛋疼的introduction了，直接进入method。

一、Method

整体思路很简单，就是随机初始化一张图片x，如果能让它的值经过CNN之后任何filter的feature map的值跟另一张图片y相等，那么他肯定是跟另一张图片y相同。

作者基于上面的思路，重新生成的照片分成了2个部分，分别是content和style。content反映的是原始图片的信息，style反应的是艺术照片的信息。如果能让他们直接来一个trade-off是不是就能合成一个新的照片了呢？

二、Loss Function

作者将loss分成两个部分，也就是对应于输入的两张图片。

A.Content loss
这里是将feature map拉直了，所以F是为二维的矩阵，分别为第l成的filter个数，和filter对应的输出

$L c o n t e n t (p ⃗, x ⃗, l) = 1 2 \sum i, j (F l i, j - P l i, j) 2$ $\mathfrak{L}_{content} (\vec {p}, \vec{x},l)= \frac{1}{2}\sum _{i,j}(F_{i,j}^l - P_{i,j}^l)^2$

So let p and x be the original image and the image that is generated and Pl and Fltheir respective feature representation in layer l.

它对应的偏导数为

$\partial L c o n t e n t \partial F l i , j = {(F l - P l) 0 if F l i, j > 0 if F l i, j < 0$ $\frac{\partial \mathfrak{L_{content}}}{\partial F_{i,j}^l} = \begin{cases} (F^l - P^l) & \text{ if } F_{i,j}^l > 0 \\ 0 & \text{ if } F_{i,j}^l < 0 \end{cases}$

B. Style loss
作者使用Gram矩阵表示同一层中filter的相关性，关于Gram矩阵大家可以百度，简单理解就是向量的内积

$G l i, j = \sum k F l i, k F l j, k$ $G_{i,j}^l = \sum_k F_{i,k}^lF_{j,k}^l$
单层的loss为
$E l = 1 4 N 2 l M 2 l \sum (G l i, j - A l i, j) 2$ $E_l=\frac{1}{4N_l^2M_l^2}\sum(G_{i,j}^l-A_{i,j}^l)^2$

因为可能不止采用一层的loss，所以总的loss为各层的和，其中参数w为人为指定，用来指定那一层的style更有用。

$L s t y l e (a ⃗, x ⃗) = \sum i = 0 L w l E l$ $\mathfrak{L}_{style}(\vec{a}, \vec {x})= \sum_{i=0}^Lw_lE_l$

对应的激活函数的偏导数为

$\partial E l \partial F l i , j = ⎧ ⎩ ⎨ 1 N 2 l M 2 l ((F l) T (G l - A l)) 0 if F l i, j > 0 if F l i, j < 0$ $\frac{\partial \mathfrak{E_{l}}}{\partial F_{i,j}^l} = \begin{cases} \frac{1}{N_l^2M_l^2}((F^l)^T(G^l-A^l)) & \text{ if } F_{i,j}^l > 0 \\ 0 & \text{ if } F_{i,j}^l < 0 \end{cases}$
C. 总loss

$L t o t a l (p ⃗, a ⃗, x ⃗) = α L c o n t e n t (p ⃗, x ⃗, l) + β L s t y l e (a ⃗, x ⃗)$ $\mathfrak{L}_{total}(\vec {p}, \vec {a},\vec{x})=\alpha \mathfrak{L}_{content} (\vec {p}, \vec{x},l) +\beta \mathfrak{L}_{style}(\vec{a}, \vec {x})$

三、总结

这个论文没有太大的学术价值，但是确实很好玩，如果说非要弄成学术论文，作者的工作其实还有很多要做，比如为什么style的loss要进行每层都指定啊，以及不同的艺术照片，α,β并不是一定的，这个比例能不能通过学习的方法学习出来……不过拿来玩足够了，最后有一点要强调的就是，这个所有的loss并不会修改模型的任何参数，所有的bp都是在修改随机初始化的那个图片，如下图。