《图像和视频油画风格化研究》
西安交通大学 2011年
论文网址:
http://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFQ&dbname=CJFD2011&filename=JSJA201106003&uid=WEEvREcwSlJHSldRa1FhcTdWajFtOTIvT3Q2OWpaOGd6eWNTcmg1ZzVCWT0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4ggI8Fm4gTkoUKaID8j8gFw!!&v=MDIxMzVUcldNMUZyQ1VSTEtmWStkcEZDamdXci9OTHo3QmI3RzRIOURNcVk5Rlo0UjhlWDFMdXhZUzdEaDFUM3E=
文章简介:
本文从图像和视频两方面对油画风格进行了介绍,无实验部分。通过对油画的分析或许可以启迪一下对水墨画的思考。
用学习的方法进行图像处理,有两大类:
1.基于类比的学习模式:找出A到A’的映射,从而找到B的映射B’
2.基于单模板的学习模式:本文的方法利用风格图片中的多个风格块,还用到了分割,方向场,颜色风格
思考:
1.现有的方法都是基于一张风格图片,有没有多张风格图片的研究
2.一张风格图片的效果是不是也是一种过拟合
3.能否用水墨风的颜色损失
4.文中提到现有风格技术只涉及到了风格选择,而对其他艺术设计,如夸张、构图、艺术布局等的处理。抽象表达语义是关键
《基于深度学习的图像与视频风格化研究与实现》
中国科学院大学 硕士学位论文 2017年
论文网址:
http://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CMFD&dbname=CMFD201702&filename=1017183567.nh&uid=WEEvREcwSlJHSldRa1FhcTdWajFtOTIvT1NRSksyaWpBci9Zb1F1NXlhTT0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4ggI8Fm4gTkoUKaID8j8gFw!!&v=MzAxMTlNVkYyNkdiS3dIZFRLcUpFYlBJUjhlWDFMdXhZUzdEaDFUM3FUcldNMUZyQ1VSTEtmWStkcEZ5amdWTC8=
文章简介:
本文作者主要做了三方面的努力:提出一种新的图像风格转换网络U-StyleNet、自拍图像处理,视频风格化。图像的风格化主要基于2篇文章:[15]是李飞飞残差网络,[16]双通道多尺度网络
[15]残差风格转换网络
网络主要分为三部分:下采样区、残差区、上采样区
1、下采样区:通过步长为2的卷积层实现
2、残差区:包含5个连续的残差块
3、上采样区:包含两个上采样层(包含一个差值层和一个卷积层)和一个卷积层
可通过反卷积提高特征图的尺寸(反卷积会在块与块之间造成重叠,出现小格子。解决方法:1.卷积核大小是步长整数倍的反卷积减小这种效果;2.先使用最邻近插值法放大图像,再使用步长为1的卷积层)
[16]多尺度风格转换网络
将输入图像缩放为不同尺度的图像,经过不同通道后,在并联层结合,汇聚成原图相同尺寸的图像
作者提出的U-StyleNet:
先用CIFAR100数据集训练虚线以上的分类网络,再用MS COCO数据集训练风格转换网络。
思考:1.多尺度风格转换网络可以学到不同维度的纹理特征,低层到高层的纹理特征对应局部到整体,而且更快,有没有有效的方法将这些不同维度的纹理特征应用到图像的不同细节上,即“不同层次纹理对目标图像的可调节性”
2.作者提到把人脸识别出来,然后单独处理会出现与背景不协调的问题,应考虑在设计风格转换网络的时候同时考虑人脸的识别和特殊处理。
《A Neural Algorithm of Artistic Style》
Gatys
文章简介:
基于像素迭代的方法
1.本文指出低层次响应描述图像的风格,高层次响应描述图像的内容。
2.Gram矩阵的计算:
风格在图像中表现为纹理特征,即像素之间的相关性,即不同feature map之间的相关性
3.和直觉相反,风格误差可以包含非常高的卷积层(conv5_1),反而有更自然,更“神似”的视觉效果。
这篇gatys的文章创造性地提出了低层featuremap是局部结构、颜色(有别于之前线,角等的说法),并将图像的风格和内容分开再重组
思考:无
《Deep Painterly Harmonization》深度绘画协调
康奈尔大学 Adobe Research 栾福军 2018.04
参考译文:https://zhuanlan.zhihu.com/p/35633664
http://tech.ifeng.com/a/20180415/44955021_0.shtml
文章简介:
1.跳出全局风格化的范围,实现局部风格化,在去除边界线、匹配色彩、细化质地上表现更为突出
2.核心思想:把画作相关部分(神经元响应)的特征统计,迁移到外来物体的对应位置上,关键在于选择,哪些东西是应该迁移的
two-pass,风格重建损失(Gram矩阵)
3.
第一步:粗略图像协调(单一尺度)
大致调整外来元素的色彩和质地,和画中语义相似的部分对应。要在神经网络的每一层,分别找到相邻最近的神经补丁,和粘贴部分的神经元响应匹配起来。再用Gram矩阵对风格损失优化一下
第二步:高品质细化(多尺度)
在一个负责捕捉质地属性的中间层集中火力,生成一个对应关系图(correspondence map),剔除空间异常值(spatial outliers)
对拥有空间一致性的对应图进行上采样,进入神经网络更加精细的层次里。保证对每一个输出位置来说,所有尺度上的神经元响应,都来自画中同一位置,使画面更连贯。
后处理:
(1)色度降噪:将图像转换成cielab色彩空间,再在Guided Filter里,以亮度通道作为向导,过滤ab色度通道
(2)补丁合成:用patch match来给每一个补丁找到相似的补丁。再为所有画风重叠的补丁取平均值,以此重构output,保证画面里不要出现新内容。副作用是会柔化细节,所以又要使用Guided Filter把图像分成底层和细节层来削弱柔化效果
思考:
1.文章提到:高频失真的现象,主要作用在色度通道,对亮度并没有太大影响。可是人眼不是应该对亮度比较敏感吗?难道这是画作的特性?这是高频特性?
2.转移区域特征统计的集合,比转移很多独立位置的特征统计效果要好
3.空间一致性及跨尺度一致性
《Deep Photo Style Transfer》深度图像风格转换
康奈尔大学 Adobe Research 栾福军 2017
参考译文:https://blog.csdn.net/cicibabe/article/details/70868746
文章简介:
1、本文实现了写实风格变换,即输入图像及参考图像都是真实照片,将输入图像到输出图像的变换约束在色彩空间的局部仿射变换中,将这个约束表示成一个完全可微的参数项,抑制图像扭曲(如直线弯曲、纹理扭曲),用拉普拉斯抠图矩阵表示一个完全可微项抑制图像扭曲。拉普拉斯抠图变换约束从色彩空间上从输入到输出的局部仿射变换。
2、将变换操作限制在色彩空间上,使用了色彩空间上的局部仿射变换模型。用到了写实正则化参数项。
3、抑制风格溢出:对变换过程中由于输入图像和参考图像的内容不同而导致的不相关内容不在预期范围内的变换的出现提供了解决方案。例如:一个输入图像的天空内容比较少,其他风格变换可能会忽略掉内容上的差异而导致天空风格“溢出”到图像的其他部分。
这是通过语义风格来解决的,这涉及到语义精度和转移保真度。用风格图像最相似的区域匹配每个输入神经区域,这个策略的本质是卷积网络和马尔科夫随机场方法。将输入图像和风格图像的语义标注整合到整个转移过程中,这样在相同语义的次区域间和每个次区域上进行风格转移,映射就会趋向均匀。
4、风格溢出可以根据计算输出图像和参考风格的对应关系来判断
5、抑制输入图像和部分风格图像区域匹配,其他整个风格图像区域被忽略的问题:用神经网络反馈gram矩阵的参考风格图像转移完整的“风格分布”。
思考:
1、如何在局部优化和全局一致性之间寻找平衡?
《Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks 》基于马尔科夫GAN网络的预计算纹理合成
参考译文:https://www.jianshu.com/p/6054799d7bb1
文章简介:
预计算 一个前馈的步幅卷积网络,对马尔科夫碎片的纹理数据进行捕获,生成任意维度的输出,把棕色噪声解码成逼真的纹理或把图片转化成艺术图像。本文通过一种预计算网络反向的方法来加速。
大致流程:内容图像经过VGG进行特征抽取,送入G网络并输出风格图像,风格图像分别经过VGG网络抽取出风格特征和内容特征。最后将合成图片的风格特征和风格图像的风格特征输入到D网络得到GAN的损失函数,并将合成的图片的内容特征和内容图像的内容特征输入MSE损失函数。这两个损失函数共同更新网络的参数(主要是G网络和D网络)。
1.马尔科夫随机场在风格迁移中的应用
通过像素值的局部碎片区域描绘图像特征
2.深层结构对表现在物体类型上的变化的捕获能力已经超过了像素水平上的方法
疑问:这个说法是指考虑到语义了吗
3.两类生成模型
第一类:全图像模型
生成整体图像,
缺点:局限于细节上保真度有限的小图片
第二类:马尔科夫模型
捕获局部数据(碎片数据),并把它们集合成高分辨率的图片(建模)
缺点:生成特殊全局结构需要附加指引
4.初始化
在同样迭代周期下,用一个预训练的识别网络初始化可以得到比随机初始化好非常多的结果
5.本文方法缺陷
不能在两张不同面部照片之间转化面部特征,因为面部特征不能视作纹理,需要语义上的理解(例如:表情、姿势和性别)
思考:
1.作者认为“可能不存在一个对于所有纹理通用的最适宜的设计”
《Texture Networks: Feed-forward Synthesis of Textures and Stylized Images 》纹理网络:在前馈网络中进行纹理合成与风格化
参考译文:https://www.jianshu.com/p/1187049ae1ad
文章简介:
1.匹配统计特征
通过对网络进行描述性的研究,比如图像统计。他们的的想法是减少图像生成的随机抽样以匹配确定的统计特征
2.某些网络OOM原因
使用了梯度下降,利用反向传播来改变像素点的值需要高昂计算代价,占大量内存
3.预图片