【AI论文】Cobra：使用BRoAder参考的高效线条艺术着色

摘要：漫画制作行业需要基于参考的线条艺术着色，具有高精度、高效率、上下文一致性和灵活控制等特点。漫画页通常涉及各种人物、物体和背景，这使得着色过程变得复杂。尽管图像生成的扩散模型取得了进步，但它们在线条艺术着色中的应用仍然有限，面临着处理大量参考图像、耗时的推理和灵活控制等方面的挑战。我们研究了广泛的上下文图像指导对线条艺术着色质量的必要性。为了解决这些挑战，我们引入了Cobra，这是一种高效且通用的方法，支持颜色提示，并利用了200多张参考图像，同时保持了低延迟。 Cobra 的核心是因果稀疏 DiT 架构，该架构利用专门设计的位置编码、因果稀疏注意力和键值缓存来有效地管理长上下文引用，并确保颜色标识的一致性。结果表明，Cobra通过广泛的上下文参考实现了精确的线条艺术着色，显著提高了推理速度和交互性，从而满足了关键的工业需求。我们在项目页面上发布了我们的代码和模型：https://zhuang2002.github.io/Cobra/。Huggingface链接：Paper page，论文链接：2504.12240

研究背景和目的

研究背景

在图像处理和计算机视觉领域，图像着色（Image Colorization）一直是一个重要的研究方向。传统的图像着色方法主要依赖于颜色提示（Color Hints）、调色板（Palettes）或文本控制（Text Control）机制。然而，这些方法在应用于复杂且多变的漫画页面着色时，存在明显的局限性。例如，调色板方法虽然能够提供一致性，但限制了漫画风格的多样性；颜色提示方法虽然提供了灵活性，但缺乏自动化处理，难以满足快速工业应用的需求；文本控制方法尽管直观易用，但其文本编码器计算成本高昂，且对输入清晰度敏感。

近年来，扩散模型（Diffusion Models）在图像生成、图像修复和图像编辑等方面取得了显著进展。然而，它们在多参考图像基础上的着色应用，尤其是在工业规模的任务中，仍然探索不足。现有的基于参考图像的着色方法虽然能够在一定程度上解决上述问题，但它们在处理大量参考图像、快速推理以及复杂上下文依赖的漫画页面时，仍面临挑战。例如，ScreenVAE方法虽然能够从单个参考图像中提取风格向量进行漫画着色，但其应用范围有限；ColorFlow方法采用三阶段框架和双分支网络，但仅限于处理少量（12张）参考图像；AniDoc方法则专注于单个角色动漫视频着色，无法处理包含多样元素和背景的漫画页面。

漫画制作行业对基于参考的线条艺术着色有着高准确性、高效率、上下文一致性和灵活控制的需求。一个漫画页面往往包含多样的角色、物体和背景，这使得着色过程变得复杂。因此，如何有效地整合广泛的上下文参考信息，将黑白线条艺术转变为生动形象的彩色插图，成为了一个亟待解决的问题。

研究目的

针对上述背景和挑战，本研究旨在提出一种新颖、高效且灵活的方法，以满足漫画线条艺术着色的工业需求。具体来说，本研究旨在：

提高着色精度：通过有效整合广泛的上下文参考信息，确保着色结果的准确性和一致性。
提升推理效率：设计高效的算法架构，减少计算复杂度，实现快速推理。
增强灵活性：支持用户通过颜色提示等方式对着色过程进行灵活控制。
建立基准数据集：为评估漫画线条艺术着色方法提供全面的基准数据集。

研究方法

Causal Sparse DiT架构

本研究提出了Causal Sparse DiT（Causal Sparse Diffusion Transformer）架构，该架构是Cobra方法的核心。该架构通过以下设计实现了高效处理大量参考图像的能力：

局部化可重用位置编码（Localized Reusable Position Encoding）：通过将线条艺术图像划分为四个空间块（左上、左下、右上、右下），并为每个块检索最相似的参考图像集，实现了对任意数量参考图像的支持。位置编码被分为五部分，其中一部分用于中心区域，其余四部分用于周围区域。这种设计允许在不修改现有2D位置编码的情况下，整合任意数量的参考图像。
因果稀疏注意力（Causal Sparse Attention）：通过排除参考图像之间的成对计算，减少了计算复杂度。同时，采用单向因果注意力机制，结合键值缓存（KV-Cache），进一步提高了计算效率，同时确保了颜色身份信息的有效传递。

线条艺术引导者（Line Art Guider）

线条艺术引导者模块负责接收线条艺术图像和颜色提示图像的潜在表示，并将其特征逐层整合到主分支中。该模块通过以下设计提高了着色过程的精确性和灵活性：

自注意力块（Self-Attention-Only Block）：由于线条艺术引导者仅负责接收图像类型的控制条件，因此去除了交叉注意力层，仅保留自注意力层，从而减少了模型参数，同时保持了控制效果。
线条艺术风格增强（Line Art Style Augmentation）：通过混合不同风格的线条艺术提取器输出，提高了线条艺术引导者对不同线条艺术风格的鲁棒性。
颜色提示点采样策略（Hint Point Sampling Strategy）：通过限制提示点内RGB像素值的方差，有效避免了训练过程中的歧义，提高了颜色提示的准确性。

研究结果

定性结果

通过定性比较，本研究展示了Cobra方法在处理复杂漫画页面着色任务时的优越性。如图6和图7所示，与IP-Adapter、ColorFlow和MC-v2等方法相比，Cobra方法能够更准确地保留颜色身份信息，并提供更高质量的着色结果。特别是在处理包含阴影的线条艺术时，Cobra方法能够更好地保持颜色保真度并增强细节。

此外，Cobra方法还支持用户通过颜色提示对特定区域进行颜色调整，如图8所示。当用户提供的参考图像集无法完全满足需求时，用户可以在指定区域添加颜色提示，Cobra方法能够准确地调整该区域的颜色，同时保持其他区域的稳定性和一致性。

定量结果

在定量评估方面，本研究采用了五种评估指标：CLIP图像相似性（CLIP-IS）、Fréchet Inception距离（FID）、峰值信噪比（PSNR）、结构相似性指数（SSIM）和美学评分（AS）。表1总结了Cobra方法与现有先进方法的定量比较结果。

结果显示，Cobra方法在所有评估指标上均优于现有方法。特别是在处理包含阴影的线条艺术时，Cobra方法在CLIP-IS、FID、PSNR、SSIM和AS指标上分别取得了0.9264、18.84、18.96、0.8694和4.674的优异成绩。这些结果充分证明了Cobra方法在处理复杂漫画页面着色任务时的有效性和优越性。

研究局限

尽管Cobra方法在漫画线条艺术着色方面取得了显著进展，但仍存在一些局限性：

风格转移局限性：Cobra方法主要设计用于在同一角色内传递一致的颜色身份信息。然而，当参考图像描绘不同角色时，Cobra方法可能无法有效地进行风格转移。如图10所示，当参考图像A和B描绘不同角色时，Cobra方法的结果B未能正确传递参考图像中的颜色风格。
参考图像数量限制：尽管Cobra方法支持处理大量参考图像，但在实际应用中，过多的参考图像可能会增加用户的筛选成本。此外，当参考图像之间存在较大差异时，如何有效地整合这些信息仍然是一个挑战。

未来研究方向

针对上述局限性，未来研究可以从以下几个方面展开：

增强风格转移能力：探索如何使Cobra方法更好地支持跨角色的风格转移。这可能需要引入更复杂的注意力机制或条件生成模型来捕捉不同角色之间的颜色风格差异。
优化参考图像选择：开发更智能的参考图像选择算法，以减少用户的筛选成本。这可能包括基于内容的图像检索技术或深度学习模型来自动识别和选择最相关的参考图像。
多模态融合：探索将文本、颜色提示和参考图像等多模态信息融合到着色过程中。这不仅可以提高着色结果的多样性和灵活性，还可以为用户提供更直观的控制方式。
实时推理：进一步优化Cobra方法的算法架构和计算效率，以实现实时推理能力。这可能包括采用更高效的注意力机制、并行计算技术或硬件加速等方法。
跨领域应用：探索将Cobra方法扩展到其他领域的应用中，如动漫视频着色、插图设计或艺术创作等。通过针对特定领域的需求进行优化和定制，可以进一步发挥Cobra方法的潜力和价值。