Profile
这篇文章想要解决的问题是纯线稿图画的“平涂(Flat Filling)”的问题;就像《神秘花园》一样,又不限于花花草草与几何图形,可以是任意的形象。
与一般的自然图像着色和动漫线稿上色不同,前者(如 LOHOGAN)有丰富的亮度提供纹理支持,后者(如 StylePaints-v2)需要考虑渐变与亮/暗面;平涂就是线稿包围的一个区域仅填充一种颜色。
鉴于文章的图过于模糊(应该是 ppt 保留为图片贴上去的),视觉效果请见原文:User-Guided Line Art Flat Filling with Split Filling Mechanism
鉴于方法相对简单(完完全全的强监督学习),下文仅介绍数据合成方法与一些在图像上色方面要注意的点和可用的 tricks。
Data Synthesis
1️⃣ 收集数据:从 Danbooru 收集 1000k 张图像;
针对每个样本,执行——
2️⃣ 使用 [1] 的方法提取线稿图(Line drawing map)
X
X
X
3️⃣ 根据
X
X
X,使用 [2] 提取区域(线稿勾勒的闭域)
{
Ω
i
,
.
.
.
,
n
}
\{\Omega_{i,...,n}\}
{Ωi,...,n}
4️⃣ 使用 [3] 中的
s
k
e
l
e
t
o
n
skeleton
skeleton-
f
r
o
m
from
from-
r
e
g
i
o
n
region
region 变换,将
{
Ω
i
,
.
.
.
,
n
}
\{\Omega_{i,...,n}\}
{Ωi,...,n} 转换为骨架谱(Skeleton map)
S
S
S
5️⃣ 通过对
{
Ω
i
,
.
.
.
,
n
}
\{\Omega_{i,...,n}\}
{Ωi,...,n} 中每个区域填充区域内对应图片的平均颜色,获得平色谱
C
C
C
6️⃣ 在变换颜色空间使用 K 均值聚类对 5️⃣ 中的均值颜色聚类,感觉聚类结果,将同一个簇中的均值颜色对应的区域
Ω
i
\Omega_i
Ωi 取并集得到每一组颜色的影响区域谱(Influence map)
I
i
I_i
Ii
7️⃣ 仿真用户输入的潦草的颜色提示(Color scribbles)
U
U
U,对应到每个组就是
U
i
U_i
Ui 与对应的掩码
M
i
M_i
Mi
User scribble simulation
- 对于每个区域 Ω j \Omega_j Ωj,随机采样样本点 p 1 , p 2 ∈ R 2 p_1, p_2\in \mathbb R^2 p1,p2∈R2,颜色去 p 1 p_1 p1 点的位置,连接直线段,线宽为 3 个像素。
如上图所示,作者认为实际应用中,用户标记的提示是十分潦草的,存在上面 3 中主要的情况:
- Layer Coverage: 不知道一处标记是否要应用到其他相同语义类别的未标记区域
- Scribble reliability: 标记可能稍微跨过不同类别的区域
- Color uncertainty: 比如一朵花的很多花瓣,只画一条线跨过多片花瓣,那是否这些花瓣的颜色要相同还是体现差异性
其中,问题 3 被数据驱动的方法隐式解决了,因为模型会记住真实上色图像的一些配色先验;问题 1 也能由模型隐式解决,即对线稿相同或相关语义区域的关联和聚类(聚到同一组),
当然还要在仿真 scribbles 时尽可能仿真真实误差:
- Q1:训练的时候随机修改 scribble 覆盖的区域(应该是随机清楚个别区域的 scribble 标记)。具体地——与其在同一个区域 Ω j \Omega_j Ωj 中采样 p 1 , p 2 p_1, p_2 p1,p2,让 p 2 p_2 p2 采自 Φ i \Phi_i Φi 的其他区域 Ω k \Omega_k Ωk,注意 Ω k \Omega_k Ωk 与 Ω i \Omega_i Ωi 是区域内可达的,即联通的,并且限制在 3 阶近邻内。
- Q2:正常采样 p p p 的时候,先对区域 Ω j \Omega_j Ωj 做膨胀( r = 15 r=15 r=15),再随机采样(仿真越界)。
Methods
方法是很简单的,分为两个阶段,第一个阶段是基于神经网络的预测;第二阶段常规图像操作。
其中,仅在 ( a ) → ( b ) (a)\rightarrow(b) (a)→(b) 时使用下图的网络预测对应的骨架谱、平色谱、区域影响谱;其余的都是常规操作。
但不得不说😂,效果是真的好🐮🍺
网络结构是一个 3-头 的编码器-解码器,如下图所示:
Reference
[1] Mastering Sketching: Adversarial Augmentation for Structured Prediction
[2] Danbooregion: An illustration region dataset
[3] A fast parallel algorithm for thinning digital patterns