AIGC-GladCoder: Stylized QR Code Generation with Grayscale-Aware Denoising Proces-Ijcai2024论文精读

AIGC-GladCoder: Stylized QR Code Generation with Grayscale-Aware Denoising Process
风格化二维码

paper:https://www.ijcai.org/proceedings/2024/861

在这里插入图片描述

MOVIVATION

  • ArtCoder的缺点:
    • 图像质量和细节保留不足:ArtCoder使用神经风格迁移网络生成输出,但这种方法往往难以生成自然和高质量的图像。ArtCoder生成的图像通常无法很好地保留参考图像的外观,细节和颜色可能显得单调和简化,这影响了视觉感知的质量。
    • 黑白像素影响视觉感知:ArtCoder输出中的明显黑白像素会对视觉感知产生负面影响。这些黑白像素在视觉上显得突兀,降低了图像的整体美观性。
  • QRBTF的缺点:
    • 图像质量问题:QRBTF尝试将QR码图像嵌入到由扩散模型生成的图像中,但生成的图像中仍然存在明显的黑白块,这些块状元素在视觉上显得突兀,尤其是在图像内容特征为人物或物体特写时更为明显。
    • 亮度控制问题:QRBTF使用的Brightness ControlNet在生成过程中优先考虑图像与QR码之间的灰度一致性,而忽略了视觉质量的考虑。这种方法虽然在一定程度上保持了QR码的功能性,但牺牲了图像的美观性。
    • 扫描鲁棒性不足:文章中提到,QRBTF生成的结果在使用某些应用程序(如Alipay)扫描时表现不佳,特别是在较大尺寸的QR码上,扫描成功率较低。这可能是因为QRBTF在处理大尺寸QR码时,自动缩放功能可能导致扫描更加困难。
    • 仅使用 ControlNet 生成的图像通常面临图像质量和可扫描性之间的权衡,导致结果具有许多矩形形状和以无序方式排列的元素。

CONTRIBUTION

  • 介绍了一种新颖的方法 GladCoder 来生成个性化、自然且文本驱动的风格化 OR 代码。 (ArtCoder 和QRBTF)
  • Depth-guided Aesthetic QR code Generator (DAG)用于提高图像前景质量的深度引导美学 QR 代码生成器 (DAG) ,解决了 QR 码与自然图像之间的不匹配问题。
  • GrayscaLe-Aware Denoising (GLAD):用于增强扫描鲁棒性的灰度感知降噪 (GLAD) 过程,用于确保生成的图像可以被 QR 扫描仪识别,其可以控制图像中的特定像素以提高扫描稳健性,而不影响图像的视觉质量
  • GladCoder:一个基于扩散模型的方法,用于从文本输入创建高质量的风格化QR码图像。这种方法能够生成多样化的输出图像,为用户提供更多选择。(a textual prompt and a text content to be coded)

METHOD

框架

  • INPUT:
    t p t_p tp:for guidance of image content
    t c t_c tc:scanning result
  • OUTPUT:
    是一个扫描鲁棒性图像,可以被扫描仪解释为 t c t_c tc,且在人类视觉下,它仍然是与 t p t_p tp相关的图像。(a scanning-robust image that can be interpreted as t c t_c tc by scanners, while underhuman vision, it is still a harmonious image related to t p t_p tp.)
  • 步骤
    该管道首先利用DAG(Depth-Guided Aesthetic QR Code Generator)作指导艺术性 QR 码构建,然后将 GLAD 过程应用于参考图像和所构建的 QR 码,从而产生鲁棒的混合图像。

ISO/IEC 18004标准(对于二维码的标准要求):

ISO/IEC 18004标准是关于二维码的国际标准,由国际标准化组织(ISO)和国际电工委员会(IEC)共同制定。该标准详细规定了二维码的各种技术规格,包括:

  • 版本和尺寸: 标准定义了从版本1到版本40的QR码,每个版本的尺寸(模块数量)都有明确的规定。版本号越高,QR码的尺寸越大,能够存储的信息也越多。每个版本的模块数量在每边增加4个模块,从21x21模块的版本1开始,到177x177模块的版本40。 M n u m = 17 + 4 × v M _{num} =17+4×v Mnum=17+4×v
    • M n u m M _{num} Mnum :(the number of modules in one row or column of the QR code)
    • v:二维码版本QR code version v
  • 容错级别: 标准规定了四个不同的容错级别(L, M, Q, H),这些级别定义了QR码可以恢复的数据的最大百分比(分别为7%, 15%, 25%, 和 30%)。容错级别越高,QR码能够在更严重的损坏情况下还能被正确扫描。
  • 编码模式: QR码支持多种数据类型的编码,包括数字、字母数字、字节/二进制以及日本的汉字模式。不同的编码模式影响数据的压缩率和最终的存储容量。
  • 校正图案: 标准还规定了QR码中必须包含的几种固定图案,包括定位图案、对齐图案和计时图案,这些都是为了确保扫描设备能够正确解析QR码的结构和内容。

Depth-Guided Aesthetic QR Code Generator(DAG)

这个生成器利用深度信息来引导QR码的生成,从而使得生成的QR码不仅包含必要的编码信息,还能在视觉上与背景图像融为一体,提高整体的美学价值。

  • 图像的前景(foreground)和背景(back-ground)
    在自然图像中,前景通常包含图像的主要元素,如人物、物体等,这些元素在视觉上更为突出,距离观察者更近,占据了图像的主要部分。背景则包含较小或较不重要的元素,通常在视觉上不那么突出。
    当优先考虑前景图像所占据的位置时,在后一代中复制这些主题会更容易。对于那些放置在背景中的小元素,即使是随机分布的代码,我们仍然可以依靠扩散模型来正确地表达它们。
  • 使用深度信息指导QR码生成
    在图像处理中,深度信息指的是图像中各个部分与观察者之间的相对距离。深度信息可以帮助区分图像的前景和背景,前景通常是距离观察者更近的部分,而背景则更远。GladCoder通过分析图像的深度信息,来确定哪些区域是前景,哪些是背景。
    GladCoder采用深度信息(depth information)作为指标来指导QR码的生成。通过分析图像的深度信息,GladCoder能够识别出图像中的前景和背景元素,并据此调整QR码模块的分布。
  • QR码的生成
    在这里插入图片描述
    I R I_R IR:给定提示词prompts生成的参考图像
    I M ( i , j ) I_M(i,j) IM(i,j):给定参考图像 I R I_R IR,首先应用一系列图像处理,得到 M n u m M _{num} Mnum × M n u m M _{num} Mnum 矩阵 I M I_M IM,他是根据I_R的灰度版本经调整大小后得到的
    I B I_B IB: I M I_M IM
  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值