动漫风格迁移 I2I 论文阅读笔记——Learning to Cartoonize Using White-box Cartoon Representation

本文链接：https://blog.csdn.net/qq_26136211/article/details/115369752

本文介绍了Learning to Cartoonize Using White-box Cartoon Representation论文，该论文提出通过分离图片的surface、structure和texture表达来实现动漫风格迁移。利用可微分滤波器提取表面，Felzenszwalb算法结合自适应着色获取结构，以及随机颜色偏移提取纹理。通过调整各部分的权重，用户可以控制输出的动漫风格。实验结果显示，模型能适应多种画风，但可能存在过于接近真实照片的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Learning to Cartoonize Using White-box Cartoon Representation 论文阅读

发表于CV2020。

在这里插入图片描述

介绍

由于动画风格多样，且需求多元，所以实用的动漫风格迁移算法需要以特定假设为前提。比如，一些动画制作流程更关注全局调色板主题（global palette theme），而不是线条的清晰度。从而导致黑箱模型没法应对各种多样的需求（简单的改变数据集不能解决问题）。
为了解决上述问题，我们将图片分解成几个动画表达形式：
首先，我们提取了surface表达，它表示图片的平滑表面。给定图片I∈R^WxHx3，我们提取了一个加权的低频分量I_sf∈R^WxHx3，它保留了图片的颜色组成和表面纹理，但是忽视了边线、纹理和细节。（灵感来源于画家会在画细节前先画一个草图）
然后，提取structure，它捕捉了全局结构信息和稀疏的色块（in celluloid卡通风格）。我们从I中提取了一个segmentation map，然后对每个segmented region应用一个自适应的着色算法生成structure表达I_st∈R^WxHx3。
接着，我们使用texture表达来包含绘制的细节和边缘。将I转化为单通道的密度图I_t∈R^WxHx1，它移除了原有图片的颜色和亮度信息，只保留了相关的像素强度。（灵盖来源于画家首先会画一张具有轮廓和细节的线条草图，然后填色）它允许网络独立地学习高频的纹理细节。
这三个分开的表达有利于让网络通过特定任务的微调来适应多样的画风。

我们的主要贡献有如下几点：
我们基于对绘画习惯的观察提出了三个cartoon representation:surface, structure, texture。
用户可以通过平衡三个representation的权重来控制图片输出风格。