Text2Colors: Guiding Image Colorization through Text-Driven Palette Generation

最新推荐文章于 2023-11-02 10:30:46 发布

fuxin607

最新推荐文章于 2023-11-02 10:30:46 发布

阅读量788

点赞数

分类专栏：跨媒体文章标签：文本指导图像着色

本文链接：https://blog.csdn.net/fuxin607/article/details/79929250

版权

跨媒体专栏收录该内容

23 篇文章 2 订阅

订阅专栏

arxiv上面2018年4月13号更新的韩国高丽大学的关于跨媒体（NLP与CV结合）的文章，一作是个研究生，团队主页http://davian.korea.ac.kr，文章链接https://arxiv.org/pdf/1804.04128.pdf，看文章的格式应该是ECCV2018在投，作者已经将pytorch code和dataset released在github上面了https://github.com/wonwoongJo/Text2Colors。

文章要做的事情
输入：灰度图+文本　　　　　　　输出：彩色图
文章分别在CUB-200-2011(CUB)和ImageNet ILSVRC Object Detection (ImageNet) datasets上面做了实验，实验结果的效果图如下。
实验效果图
作色的流程
根据文本(text)产生调色板(palette)，然后再根据调色板和灰度图(grayscale image)产生着色图，为了让文本与着色相对应，文章构建了一个Palette-and-Text (PAT) dataset，着色流程示意图如下。
Text2Colors示意图
Text2Colors方法
本文利用CNN实现Text2Colors，网络的framework主要分为Text-to-Palette Generation Networks (TPN)和Palette-based Coloriz ation Networks (PCN)两部分，这两个网络都利用conditional GANs (cGAN)，TPN是根据text产生palettes，PCN利用palettes和grayscale image来实现Image Colorization，Text2Colors framework如下所示。
这里写图片描述

TPN利用带有attention的GRU将text encoder，然后根据encoder的feature预测palettes，实际上就是用encoder feature作分类，根据这个encoder feature去decoder palettes，这个架构中有个trick，就是用FC做了一下conditioning augmentation ，和stackGAN很像，应该是借鉴stackGAN，TPN的架构图如下所示。
TPN架构图
PCN主网络采用U-Net，skip connection应该是比较work的（以后拜读了再添加解读），记得pix2pix也是用的这个网络，个人感觉做图像生成，这个网络应该比较靠谱。从ablation study中可以看出cGAN和Huber（约束项）对实验结果都有影响，但是并不是都加上最好，文章比较的唯一方法就是stackGAN，与stackGAN比较的结果图如下所示。
与stackGAN结果比较