论文：QuantArt: Quantizing Image Style Transfer Towards High Visual Fidelity

最新推荐文章于 2024-08-09 15:31:03 发布

肉圆好好吃

最新推荐文章于 2024-08-09 15:31:03 发布

阅读量373

点赞数

分类专栏：风格迁移文章标签：计算机视觉人工智能算法

本文链接：https://blog.csdn.net/jiliguluguji/article/details/131235471

版权

风格迁移专栏收录该内容

1 篇文章 0 订阅

订阅专栏

0.论文的基本信息

在这里插入图片描述
被引用：2次（截止到2023年6月15日）
哈佛大学作者

1.论文解决的问题

将视觉逼真度定义为一种新风格传递的评价标准，提出了一种基于矢量量化的高视觉逼真度风格迁移算法
设计了一个基于离散和连续两种风格传递架构的框架，允许用户灵活地控制风格相似性、内容保存和风格化结果的视觉逼真度。

2.目前工作存在的不足

3.论文的亮点

3.1、给出了风格迁移中三个比较重要的指标
在这里插入图片描述

（1）风格保真度
通过计生成图像和风格图像之间的Gram矩阵
（2）内容的逼真度
通常计算感知距离或者LPIPS距离评测
（3）视觉的逼真度
本文是将所有真实的艺术作品都属于一个分布T，生成图像越接近分布T，保真度越高，上图第三列常见的神经风格迁移方法，保存了风格图像的纹理，所有较低的保证度

4.pipline

（1）训练阶段一
在这里插入图片描述

训练encoder和deocoder
encoder和decoder的网络采用的是两层的卷积层，目标是重建任务，恢复原始的图像。不同于传统vgg网络和resnet网络。两层的卷积层只能够提取到浅层次的图像的信息特征，对于图像的风格特征并不能更好的去探索（之前有篇文章已经解释了）
训练loss包括两个，一个是重建loss，还有一个是对抗loss

$\mathcal{L}_{AE}(E_C,D_C)=||c_{rec}-c||+\mathcal{L}_{adv}(E_C,D_C,\mathbb{D}_C)$
$\mathcal{L}_{adv}(E_C,D_C,\mathbb{D}_C)=\log\mathbb{D}_C(c)+\log(1-\mathbb{D}_C(c_{rec}))$

训练codebook
在这里插入图片描述

提取特征
$z_c=\hat{E}_C(c),\quad z_s=\hat{E}_S(s).$
然后计算矢量特征 $\hat{z}_c$ 和 $\hat{z}_s$
$Q_{\mathcal{Z}}(z):=\operatorname{arg}\limits_{\mathbf{z}_k\in\mathcal{Z}}||z-\mathbf{z}_k||,$
计算矢量特征，然后再通过decoder进行进行显示
$\hat{z}_{c}=Q_{z_{photo}}(z_{c}),\quad\hat{z}_{s}=Q_{\mathcal{Z}_{art}}(z_{s}),$
loss计算，其中sg操作是不使用梯度下降的方法
$\begin{aligned} \mathcal{L}_{\hat{A E}}(\mathring{E}_{C},\mathring{D}_{C},\mathcal{Z}_{p h o t o})& =\mathcal{L}_{AE}(\hat{E}_C,\hat{D}_C)+\quad(8) \\ &||\mathsf{s g}[z_{c}]-\hat{z}_{c}]||+||\mathsf{s g}[\hat{z}_{c}]-z_{c}]||, \end{aligned}$
（2）训练阶段2，训练SGA
在这里插入图片描述
SGA模块是由三部分组成，Resnet弄块，两个attention模块。具体计算方式，其中 $\tilde{z}=ResNet(z_c)$

$z_y=\text{SGA}(z_c,z_s)=\text{Attn}(\text{Attn}(\tilde{z}_c,\tilde{z}_c,\tilde{z}_c),z_s,z_s).$
该种计算方式能够更好的保存内容信息，同时SGA模型进行M次,获得了更好的效果。损失函数分为内容损失，风格损失和对抗训练损失
$\mathcal{L}_{c o n t e n t}=||z_y-z_c||,$
$\mathcal{L}_{s t y l e}=||\mu(z_{y})-\mu(z_{s})||+||\sigma(z_{y})-\sigma(z_{s})||$
$\mathcal{L}_{featadv}=\log\mathbb{D}_{SGA}(z_s)+\log(1-\mathbb{D}_{SGA}(z_y))$
另外SGA的优化目标
$\mathcal{L}_{S\hat{GA}}=\mathcal{L}_{SGA}+||\mathrm{sg}[\hat{z}_y]-z_y]||$
（3）引号流程
在这里插入图片描述

5、总结

个人愚见：这篇文章能够取得比较好的效果，使用少量卷积层提取特征（相对于VGG和ResNet），因为这能够保存图片大量的图片信息，曾有篇文章指出为什么在我们的风格迁移中，总是使用VGG提取特征。

肉圆好好吃

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
论文：QuantArt: Quantizing Image Style Transfer Towards High Visual Fidelity

个人愚见：这篇文章能够取得比较好的效果，使用少量卷积层提取特征（相对于VGG和ResNet），因为这能够保存图片大量的图片信息，曾有篇文章指出为什么在我们的风格迁移中，总是使用VGG提取特征。
复制链接

扫一扫

专栏目录