论文:Robust Image Watermarking using Stable Diffusion
总结:论文亮点是提出了一个可训练的潜变量ZT,这个潜变量一开始是由原始图像经过DDIM Inversion产生,然后加水印,之后经过N次的迭代训练输出一个与原始图像尽可能相同的潜变量,用这个潜变量经过Stable Diffusion生成的带水印图像此时与原始图像类似,最后与原始图像自适应相加。
论文与树环水印主要有两个区别:一是树环水印的初始潜变量是用rand方法随机生成的,然后使用提示词生成与原始图像相似的图像;而本论文的初始潜变量是用DDIM Inversion生成的,而且这个潜变量还可以训练。
第二个区别是树环水印提出了三种水印模式,zero、rand和ring,分布嵌入的是二进制0、随机高斯分布、恒定高斯分布(个人理解)。而本论文嵌入的水印只是随机高斯分布,相当于树环的rand水印,而rand水印在之前的博客中说过它抵抗旋转攻击很弱,而其它两种比较强,所以本文的水印如果能改成其它两种水印模式,应该能够抵抗旋转攻击。
测试结果1:博主测试了两张图像,config是:嵌入单水印、嵌入到图像3通道、使用SD-2.1模型。每组的第一张图是输入的原始图像,可以看到在第一个迭代(iters)中,生成的图像是非常随机的,即使使用了DDIM Inversion也是如此。在经过多次迭代的训练后,潜变量逐渐与原始图像近似,所以生成的图像逐渐与原始图像相似,但最终结果还是与原始图像在色彩上有差异。
以上图像是水印嵌入在RGB三通道的结果,色彩上与原图有较大差异,但如果嵌入在单通道的话可以看到色彩基本与原图相似(见下图)。所以还是嵌入单通道水印的结果图更好,但是对应的鲁棒性就会降低。
测试结果2:论文也提供了使用prompt生成图像的方法,相当于图生图。从下图可以看到有prompt的情况下初始潜变量的训练就可有可无了。
测试结果3:博主分别测试了水印嵌入在单通道和三通道时的鲁棒性,可以看到嵌入在三通道时水印鲁棒性明显比单通道好。两种嵌入方式对于旋转攻击抵抗效果均较差,博主感觉换种水印类型应该能好点,参考树环的其它两种水印。
知识补充1:什么是Watson-VGG perceptual loss?
在论文的loss设计中,作者使用了这个感知损失,Watson-VGG perceptual loss 是一种用于衡量图像感知质量的损失函数,它基于人类视觉感知的原理,尤其关注图像的视觉内容。这种损失函数用于评估图像重建或图像转换任务中生成图像的质量。
知识补充2:什么是图像去噪攻击BM3D?
读的论文较少,这个攻击我第一次遇到,BM3D是芬兰Tampere工业大学在2007年发表的论文里提出的算法,作为一种效果较好的图像去噪攻击。论文中利用了图像去噪的原理来尝试移除或削弱图像中的水印。