混合代理图像修复

最新推荐文章于 2025-05-03 09:07:35 发布

Paper易论

最新推荐文章于 2025-05-03 09:07:35 发布

阅读量881

点赞数 8

文章标签：人工智能算法 ai 语言模型 chatgpt

本文链接：https://blog.csdn.net/u013524655/article/details/146305727

版权

现有的图像修复（IR）研究通常专注于特定任务或通用模式，依赖于用户的模式选择，并缺乏多任务特定/通用修复模式之间的协作。这导致了非专业用户交互不足，并限制了其在复杂实际应用中的修复能力。在这项工作中，我们提出了HybridAgent，旨在将多种修复模式整合到一个统一的图像修复模型中，并通过我们提出的混合代理实现智能高效的用户交互。具体来说，我们提出了快速、慢速和反馈修复代理的混合规则。在这里，慢修复代理通过我们提出的数据集优化强大的多模态大语言模型（MLLM），以识别具有模糊用户提示的图像中的退化并调用适当的修复工具。快速修复代理基于轻量级大语言模型（LLM）通过上下文学习设计，用于理解简单明了的用户提示，从而避免MLLM不必要的时间和资源成本。此外，我们为HybridAgents引入了混合失真去除模式，这对于之前的代理基础工作未被关注但至关重要。它可以有效防止逐步图像修复中的错误传播，并大大提高代理系统的效率。我们在合成和真实世界的IR任务中验证了HybridAgent的有效性。V+cadorai，回复：AIGC++，可即时关注作者动态。

图像修复（IR）长期以来一直是低级研究领域的一个热门话题[8, 33, 35, 72, 79]，其目标是将低质量输入（LQs）恢复为高质量输出（HQs）。早期的IR工作主要集中在不同简单单一修复任务的模型设计上，例如图像去噪、去模糊、压缩伪影去除和

图1. 逐步去除混合失真会导致次优结果，因为失真纠缠。超分辨率。然而，在实际应用中同时部署多个IR模型以处理各种退化会带来显著的资源成本。最近，全合一/通用图像修复模型（AIR）出现，通过学习退化描述符来在一个IR网络中解决多种图像修复任务。

尽管现有IR研究中存在丰富的修复模式，但在处理复杂的现实世界退化时，修复过程仍然依赖于专业用户进行模式选择，缺乏不同修复模式之间的灵活协作。例如，未经训练的用户如果不了解诸如“噪声”或“模糊”等术语，可能难以逐步选择合适的修复工具。为了消除这一点，已经提出了基于语言的交互和规划策略，以支持使用多模态大语言模型（MLLMs）进行自动图像修复 [7, 87]。然而，现有方法面临两个关键挑战：(i) 单一交互代理缺乏适应不同任务复杂性的能力，因为即使是简单明了的指令，如“请去除图像中的噪声”，仍使用重量级 MLLMs 进行处理，导致不必要的计算和时间成本；(ii) 当逐步单退化去除工具应用于现实世界的混合退化时，会发生错误传播，如图1所示。

具体而言，我们采用 MLLM 作为我们的慢修复代理（SlowAgent），因为它具有强大的理解、推理和决策能力。为了使 SlowAgent 适应 IR，我们构建了一个针对复杂图像修复任务设计的指令微调数据集。然后，我们对 SlowAgent 进行微调，使其具备强大的任务理解、退化识别和修复模式/工具规划能力。然而，用户交互需求并不总是复杂的，并不是每个任务都需要代理识别图像中的退化。对于简单的互动 IR 任务（例如，“请去除噪声”），应用 MLLM 将是低效且资源密集的。为了实现对不同 IR 需求的灵活高效交互，我们通过利用轻量级大语言模型（LLM）引入快速修复代理（FastAgent），以确定用户提示是否清晰简单。如果是，FastAgent 将直接为简单的 IR 任务执行规划并调用相应的修复工具。否则，任务将交给 SlowAgent，后者自动识别退化并执行修复。值得注意的是，为了实现自动化的修复过程，SlowAgent 需要外部反馈以确定当前图像是否需要进一步修复。为了更好地协助 SlowAgent 完成修复过程，我们进一步开发了 FeedbackAgent，以评估修复后的图像是否无退化。这三个修复代理协同工作，实现了扭曲图像的自动修复，构成了我们的 HybridAgent。

另一个 HybridAgent 的重要组成部分是修复工具，这些工具在修复过程中由代理调用。一种直接的方法是直接使用最先进的单任务修复模型作为工具 [7, 78, 87]。然而，这种方法无法充分利用跨任务的共享知识。此外，不同模型之间的分布差异可能会导致修复过程中的错误传播。为了解决这个问题，我们提出了一个三阶段训练范式来构建我们的修复工具，这不仅使工具能够有效地保留跨不同修复任务的共享知识，还提供了一种直观的方法来构建单退化和混合退化去除工具。在第一阶段，遵循预训练-微调范式，我们通过多任务学习方案 [27, 48] 训练了一个基础修复模型，以学习任务共享的知识。然后，在第二阶段，我们利用低秩适配（LoRA）[22] 高效地从预训练的基础模型中微调单退化去除工具。因此，在第三阶段，我们进一步根据预训练的基础模型定制了一个混合退化去除工具，使用一组新的 LoRA 权重。值得注意的是，在我们的三阶段训练范式中，我们采用了提示组件 [34, 48] 来隐式编码退化信息，同时利用 LoRA 高效地适应由不同退化引起的域偏移。

与直接采用现有的修复模型作为工具相比，我们提出的三阶段训练策略提供了一种更灵活和高效的方式来构建修复工具。具体来说，当用户遇到新的修复任务时，他们不再需要寻找专门的修复模型（这些模型可能甚至不存在，例如专门为 VVC 压缩伪影去除设计的模型）。相反，用户可以简单地利用 LoRA 高效地微调第一阶段的基础模型以适应新任务。

为了覆盖大多数应用场景，我们基于10种不同级别的退化训练了所有修复工具，并构建了指令数据集，包括：噪声[15]、高斯模糊、运动模糊[61]、JPEG[19]、HEVC[58]、VVC[3]、雨线[75]、雨滴[49]、雾霾[14]、低光[65]。我们纳入了两个较少探索的压缩编解码器，即 HEVC[59] 和 VVC[4]，考虑到它们在当代视觉应用中的图像和视频压缩中的采用率正在上升。

本文的贡献可以总结如下：

我们提出了 HybridAgent，这是一种新颖的图像修复互动范式，集成了快速、缓慢和反馈代理，使高效和任务自适应的交互能够满足多样化的用户需求，并处理统一修复框架内的各种退化。
我们确定了逐步单退化去除策略相关的错误传播问题，并提出了一种三阶段训练范式来构建修复工具。这种方法增强了跨任务的共享知识的重用，并引入了一种混合退化去除模式，有效地减少了修复步骤并缓解了图像修复中的错误传播。
我们构建了一个包含超过10万张图像-文本对的指令微调数据集，涵盖了10种退化类型，以调整我们的 HybridAgent。我们数据集的多样性确保了 HybridAgent 的适用性。

图2. HybridAgent的整体流程。我们采用 FastAgent 快速确定用户提示是否直接或模糊。如果提供了直接提示，HybridAgent 将切换到快速路径（虚线）以调用相应的修复工具。否则，HybridAgent 将触发慢路径（实线）。SlowAgent 自动识别失真并执行正确的修复工具。为防止错误调用工具，我们引入了 FeedbackAgent 以评估修复后的图像是否干净。FeedbackAgent 和 SlowAgent 协同工作，为用户提供最终的清洁输出。
2. 相关工作
2.1. 图像修复
单任务图像修复。图像修复（IR）通常集中于解决特定类型的图像退化。早期的工作利用卷积神经网络（CNNs），因其有效的局部信息处理能力 [11, 12, 36, 86]。随着Transformer的发展 [64]，它擅长揭示图像中的长距离依赖关系，一系列基于Transformer的IR工作 [8, 35, 67, 79] 已经出现。然而，通过L1或MSE损失优化的图像修复往往会导致过度平滑的输出 [26]。为缓解此问题，近期的工作将扩散技术 [21, 57] 引入IR网络设计。得益于强大的生成能力，基于扩散的IR模型 [16, 52, 60, 72, 77] 可以恢复更真实的图像，具有生动的纹理细节。
然而，这些工作仅专注于去除一种类型的失真，缺乏对各种实际应用场景的适应性。全合一图像修复。为解决上述问题，一些工作提出了全合一IR模型，可以通过统一的模型权重处理多种失真。先驱工作AirNet [27] 利用对比学习隐式学习各种退化分布与清晰图像之间的映射。受自然语言处理（NLP）中的提示学习启发，一系列工作 [32, 34, 39, 40, 48, 52] 研究了基于提示学习的AIR，其中一组提示参数被隐式编码以捕获各种失真的表示。同时，由于天气本身的多失真特性，出现了几种全合一方法 [20, 30, 45] 用于去除天气相关的失真，如雾、雨和雪。
尽管这些方法提高了处理各种失真的效率，但它们缺乏对失真去除的控制，即它们不能根据用户提示选择性地去除失真。最近，InstructIR [10] 和 UniProcessor [13] 利用文本编码器将用户指令映射为修复模型的条件，实现了用户可控的AIR。然而，这些工作由于编码能力有限，缺乏对多样化用户提示的泛化能力。此外，它们采用逐步方法处理混合失真，导致次优的修复结果。
2.2. 代理
代理通常指一个智能系统，能够接收多样化的用户命令并自动完成相应任务 [54]。得益于通用目的大型语言模型（LLMs）[5, 53, 63] 和多模态 LLMs（MLLMs）[29, 37, 44] 的巨大成功，这种智能系统可以通过结合MLLMs和特定领域的专家模型来实现 [42, 55, 74]。
尽管在高级领域中对代理的研究广泛，如何有效地将其应用于低级图像修复（IR）任务仍然是一个开放的问题。作为先驱工作，RL-Restore [78] 提出以序列方式解决复杂的修复问题。在每一步，RLRestore 利用强化学习自适应选择最适合去除特定类型失真的修复工具。在MLLMs的支持下，Clarity ChatGPT [69] 能够通过理解用户的命令和执行推理来动态选择工具。RestoreAgent [7] 进一步优化修复工具的执行顺序，并探索适合特定退化模式的最佳模型。AgenticIR [87] 通过结合熟练的修复经验、反思和回滚策略来改进代理的规划。然而，上述工作都通过逐步执行进行图像修复，忽略了失真的纠缠和不同修复模型可能导致的潜在分布变化 [6, 31]。此外，它们在工具调用时不考虑效率。如何根据不同的用户提示自适应和高效地选择修复工具仍然是一个开放的研究问题。
3. 方法
在本节中，我们介绍了我们的 HybridAgent，这是一个智能代理系统，能够动态和自动处理复杂的IR问题。我们在第3.1节讨论了如何通过MLLM代理实现自动图像修复。具体来说，为了解决MLLM代理在处理简单用户请求时的低效问题，我们提出了一种由FastAgent、SlowAgent和FeedbackAgent组成的协作代理系统，该系统能够高效响应多样化的用户提示并有效解决复杂的IR任务。随后，我们在第3.2节描述了如何为HybridAgent构建修复工具。特别是，我们提出了一种混合失真去除工具，以熟练应对逐步修复过程中的错误传播问题。
3.1. HybridAgent
想象一下用户希望修复一张退化的图像。通常，用户会首先识别图像中的失真类型，然后搜索合适的修复模型。在应用修复步骤后，个人会评估图像是否已被充分修复。如果退化仍然存在，用户将继续选择和应用适当的修复工具，直到达到满意的修复结果。HybridAgent按照这个相同的迭代程序自动高效地修复退化的图像，如图2所示。接收输入。HybridAgent接收一张退化的图像以及用户提供的提示。通常，代理利用MLLM感知退化并自动规划修复步骤。然而，专业用户可能会提供明确的提示，清楚地指定他们的修复要求。在这种情况下，使用MLLM进行退化识别变得不必要，因为预期的修复类型已经被识别出来。为了高效处理这种情况，我们基于轻量级LLM的FastAgent直接分析明确的用户提示，确定所需的修复工具，并立即进入下一个修复步骤。相反，如果FastAgent认为用户提供的提示模糊或不清楚，图像将交给SlowAgent并进入下一个修复步骤。识别失真。如果图像交给了
SlowAgent，识别适当的失真类型并产生合适的修复工具至关重要。然而，当前的MLLM在处理此类任务时仍面临几个挑战：(i)现有的MLLM未针对失真类型识别进行特别微调，因此限制了它们准确识别退化的能力，(ii)它们无法直接执行图像修复操作，(iii)它们缺乏确定是否需要进一步修复步骤的能力。
为解决第一个挑战，我们采用现有的Co-instruct [71]，它经过特定调整用于图像质量评估（IQA），并具备失真识别能力。然而，Co-instruct覆盖的退化类型不足以处理复杂的现实需求。因此，我们在我们提出的指令微调数据集（详见补充材料）上进一步微调Co-instruct，扩展其失真识别能力，得到我们提出的SlowAgent。然而，MLLM可能会产生幻觉并做出错误判断。为缓解这一问题，受到测试时缩放概念 [56] 的启发，我们采用多数投票机制生成多个候选决策，并选择出现最频繁的失真作为最终识别的失真。为解决第二个挑战，我们构建了一组可由SlowAgent调用的修复工具（详见第3.2节）。评估结果。为解决第三个挑战，我们建立了一个FeedbackAgent来评估修复后的图像。这样的FeedbackAgent至关重要，因为：(i)没有外部评估，SlowAgent无法可靠地确定修复后的图像是否已令人满意；(ii)它提供了灵活性，当人类用户发现中间结果可接受/不可接受时，终止/继续修复过程。幸运的是，确定修复后的图像是否干净与评估图像质量密切相关。然而，单独依靠IQA分数可能无法直接反映图像是否符合修复标准。因此，我们提出为SlowAgent提供反馈的最简单方法：微调一个IQA模型（Co-Instruct）以具体分类修复后的图像是否干净。然而，在实践中几乎不可能实现绝对完美的修复。因此，我们将所选修复工具的历史信息作为FeedbackAgent的上下文，使其更可靠地确定当前图像是否已达到相对干净状态或仍需进一步修复步骤。
3.2. 修复工具
在确定应调用哪个工具后，退化的图像将由选定的修复工具进行处理。当前的工具设计 [7, 78, 87] 通常遭受两个主要限制：(i) 它们直接采用分别训练的多个单任务模型，因此无法有效利用不同修复任务之间的共同知识，(ii) 顺序应用这些单任务模型会导致逐步处理，难以解决失真纠缠问题 [6, 31]。为同时解决这些问题，我们提出了一种新型的三阶段训练策略来构建修复工具。阶段 I. 在第一阶段，我们的目标是构建一个良好训练的基础模型，该模型在各种IR任务中共享常见知识。受提示学习方法 [48] 的有希望结果的启发，我们采用类似的网络架构。（我们将在补充材料中提供该架构的详细信息。）为增强模型代表多种失真（例如本文中的10种类型）的能力，我们遵循 [28] 并将前两阶段的transformer块替换为shifted window attention块 [8, 35]。阶段 II. 在获得基础模型后，我们在不同的失真上微调任务特定模型，以便代理能够调用相应的修复工具。一旦在阶段 I 中训练好基础模型，它就成为失真去除的基础模型，允许高效微调以获得所需的修复工具。鉴于LoRA [22] 在最小额外参数下的有效性，我们在本阶段采用它进行微调，如图 3 所示。此外，为确保提示准确传达失真状况给模型，我们重新初始化提示参数并与其一起微调LoRA参数。值得注意的是，我们利用提示来编码有关失真的描述信息，同时利用LoRA参数高效适应深层网络结构中的失真相关语义信息。阶段 III. 为解决复杂IR问题中的混合失真去除挑战，我们进一步定制了一个混合失真去除工具。类似于阶段 II，我们采用LoRA进行高效微调。然而，我们使用阶段 II 获得的提示参数初始化提示参数，使网络能有效利用阶段 II 的任务特定知识和阶段 I 的常见知识。我们遵循 Real-ESRGAN [66] 提出的失真合成管道来训练我们的模型。更多细节见补充材料。
4. 实验
4.1. 实现细节
HybridAgent的结构细节。由于大多数MLLM是为通用目的设计的，我们微调现有的MLLM以使它们有效地扮演SlowAgent和FeedbackAgent的角色。我们选择微调Co-Instruct [71]，因为它能够评估图像中的失真，为我们代理提供了良好的起点。至于修复工具，我们使用PromptIR [48] 的增强版本 [28]，其中前两个阶段的transformer块被替换为RHAG [8] 以提高代表性能力。对于FastAgent，我们采用Llama3.2-1B-Instruct 。修复工具的训练数据集。我们对10种退化进行了优化。对于噪声、高斯模糊、运动模糊、JPEG、HEVC和VVC，我们使用DF2K [1, 62] 中的3450张图像在线生成失真样本。对于其他失真，我们采用Rain100H [75] 中的1800张图像进行雨线，RainDrop [49] 中的861张图像进行雨滴，RESIDE-6k [50] 中的6000张图像进行雾霾，LOL [68] 中的485张图像进行低光，遵循先前的工作 [39]。关于合成图像的退化水平和训练细节的更详细解释见补充材料。代理的指令微调数据集。指令微调数据集在微调MLLM代理中起着至关重要的作用。基于上面介绍的训练数据集，我们按每种失真采样5千张图像，分辨率范围在到之间。我们应用线性变换将5千映射到不同失真数据集中的总图像数，确保每个数据集均匀采样。对于混合失真，我们基于10种失真的组合生成20千张图像（更多细节见补充材料）。总共，我们的SlowAgent指令微调数据集包含70千张图像-文本对。至于FeedbackAgent，我们使用正确工具恢复的图像合成30千张相对“干净”的图像和33千张由错误工具生成的“不干净”图像。这使得FeedbackAgent的总图像-文本对达到66千。测试数据集。根据[13]，我们采用CBSD68 [41]、Urban100 [23]、Kodak24 [17] 和 McMaster [85] 的组合来评估前六种失真的性能。根据[13]，我们分别使用Rain100H [75] 中的100张图像、RainDrop [49] 中的58张图像、RESIDE6k [50] 中的1000张图像和LOL [68] 中的15张图像来评估最后四种失真的性能。我们根据10种失真的混合生成200张图像用于混合退化测试。我们在补充材料中提供更多细节，包括训练设置。用户提示。我们使用GPT-4为每种失真类型生成20个直接文本提示，以及另外20个模糊提示，总共形成220个多样化的用户提示。我们在补充材料中提供样本。
4.2. HybridAgent 的有效性
在本节中，我们通过回答两个关键问题来评估 HybridAgent 的有效性：i) FastAgent 是否增强了修复流水线的熟练度？ii) 混合失真去除是否优于逐步失真去除？它们能否协作解决更复杂的失真？
4.2.1. FastAgent 设计的有效性
我们比较两种设置：a) 完整的 HybridAgent，和 b) 关闭快速路径的 HybridAgent，这意味着所有图像都通过 SlowAgent 处理，代表传统的代理设计。请注意，为了提供更直观的比较，我们在两种设置中都使用随机选择的直接用户提示。我们在表 1 中展示了 10 种失真上的平均推理时间和性能。启用快速路径后，HybridAgent 对于直接提示的运行效率显著提高（仅需 SlowAgent 运行时间的大约 12%），远远超越 SlowAgent 的效率。我们还在表 2 中报告了 FastAgent 和 SlowAgent 的成功率，定义为正确工具调用次数与总工具调用次数的比例。正如观察到的，使用 FastAgent 的上下文学习达到了相对较高的成功率，表明 FastAgent 可以适应现实世界场景中的多样化用户提示并进行准确的工具调用。
4.2.2. 单独 vs. 混合失真去除
正如第1节和第3.2节所述，逐步去除混合退化可能会导致分布偏移和错误传播。我们通过比较

图4. 仅使用单失真去除工具与单失真和混合失真去除工具的定性比较。M: 运动模糊, N: 噪声, J: JPEG, RS: 雨线, L: 低光, RD: 雨滴, B: 模糊, H: 雾霾。放大查看效果更好。两种设置：i) 仅使用单失真去除工具的逐步修复，和 ii) 使用单失真和混合失真去除工具的修复。如表3所示，混合失真去除在所有指标上显著优于逐步单失真去除，特别是在处理雾霾和低光失真方面。这表明，使用我们提出的混合失真去除工具解决混合退化可以有效缓解错误传播和分布偏移。我们假设逐步去除对于雾霾和低光失真的表现较差是由于其不稳定的失真建模，容易受到额外失真的干扰。这也反映在图4中，逐步修复未能增强低光图像或去除雾霾伪影。
然而，混合失真去除工具的表示能力有限，限制了其在更复杂失真或现实场景中的适用性。不过，HybridAgent 包含了 FeedbackAgent，允许混合失真去除工具在逐步调度中使用。因此，混合失真去除工具和单失真去除工具可以协作解决更复杂的失真场景，减少工具调用步骤并提高整体性能。我们在图5中提供了一个案例研究。混合失真和单失-

图5. 复杂退化去除的案例研究。图像受到 “Raindrop + Blur + Noise + JPEG” 的破坏。上方：逐步失真去除。底部：HybridAgent 调用的工具：De-hybrid + De-raindrop。失真去除工具的协作减少了分布偏移，并在更少的步骤中实现了更好的修复结果。
4.3. 与全合一方法的比较
为了进一步证明 HybridAgent 在最先进的全合一 IR 方法中的有效性，我们在复杂的修复场景中评估了其性能，包括合成和真实世界数据集。为了公平比表3. 仅使用单失真去除工具与使用单失真和混合失真去除工具去除混合失真的比较。

表4. HybridAgent与全合一图像修复方法的比较。对于SwinIR、Uformer、Restormer和PromptIR，我们根据其官方代码在我们的10种退化数据集上重新训练。对于InstructIR，我们仅在已知失真上进行测试以进行公平比较。最佳性能加粗显示。

为了进一步展示HybridAgent相对于最先进的全合一IR方法的有效性，我们在我们提出的10种退化数据集上重新训练了SwinIR [35]、Uformer [67]、AirNet [27]、Restormer [79] 和PromptIR [48]。根据[7]，我们多次推断上述方法以序列方式实现最佳性能。对于InstructIR [10]，我们在已知失真上测试该方法，以确保与HybridAgent的公平比较。如表4所示，我们的方法在混合退化上对其他全合一方法实现了显著改进。与传统全合一方法（如PromptIR）相比，HybridAgent受益于任务特定工具和混合失真去除工具，不仅享有各种失真之间的共同知识，还享有任务特定的专业知识。此外，InstructIR按照人类指令执行修复过程。然而，这种实现可能会在修复过程中导致错误传播，从而导致次优输出。相比之下，HybridAgent结合了混合失真去除工具，可以有效地减轻错误修复决策的影响。对于定性比较，我们在图6中提供了真实世界水下无配对数据集EUVP [24] 的视觉结果。如观察所示，HybridAgent首先使用混合失真去除工具去除纠缠的退化，然后利用去雾工具进一步增强图像的视觉质量。由于空间有限，我们在补充材料中提供了更多关于合成数据集的定性结果和其他消融研究，涉及我们三阶段训练设计的修复工具。

图6. HybridAgent在真实世界图像（EUVP [24] 数据集中的test9003up.jpg）上执行的修复过程可视化。放大以获得最佳视图。补充材料由于空间有限。
5. 结论
在本工作中，我们通过引入快速和慢速修复代理的组合提出了HybridAgents，旨在解决现有基于代理/指令的图像修复工作中的两个挑战：(i) 缺乏任务难度的灵活性；(ii) 逐步单修复工具调用导致的错误传播。为解决第一个挑战，我们引入了混合修复代理，其中FastAgent负责简单和明确的用户需求，而SlowAgent通过我们提出的大型指令微调数据集进行了优化，以支持模糊的用户需求。还设计了一个FeedbackAgent与SlowAgent协作，提供准确的反馈并执行修复过程的终止。对于第二个挑战，我们提出了一种三阶段训练策略，引入了丰富的混合失真去除工具，并通过多任务学习和任务特定提示优化来增强模型复用能力。广泛的实验验证了我们的HybridAgent在广泛用户需求和各种复杂退化情况下的有效性。
参考文献
[1] Eirikur Agustsson 和 Radu Timofte. NTIRE 2017 单图像超分辨率挑战：数据集和研究. 在 IEEE 计算机视觉与模式识别会议研讨会论文集中，第126-135页，2017年。5 [2] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, 和 Jingren Zhou. Qwen-VL: 具有多样功能的前沿大视觉语言模型. arXiv预印本arXiv:2308.12966, 2023. 14 [3] Benjamin Bross, Ye-Kui Wang, Yan Ye, Shan Liu, Jianle Chen, Gary J Sullivan, 和 Jens-Rainer Ohm. 多用途视频编码 (VVC) 标准及其应用概述. IEEE Circuits and Systems for Video Technology Transactions, 31(10):3736-3764, 2021. 2, 15 [4] Benjamin Bross, Ye-Kui Wang, Yan Ye, Shan Liu, Jianle Chen, Gary J Sullivan, 和 Jens-Rainer Ohm. 多用途视频编码 (VVC) 标准及其应用概述. IEEE Circuits and Systems for Video Technology Transactions, 31(10):3736-3764, 2021. 2, 15 [5] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell 等人. 语言模型是少量样本学习者. Advances in Neural Information Processing Systems, 33:1877-1901, 2020. 3 [6] Jin Cao, Deyu Meng, 和 Xiangyong Cao. Chain-of-restoration: 多任务图像修复模型是零样本逐步通用图像修复器. arXiv预印本arXiv:2410.08688, 2024. 4, 5 [7] Haoyu Chen, Wenbo Li, Jinjin Gu, Jingjing Ren, Sixiang Chen, Tian Ye, Renjing Pei, Kaiwen Zhou, Fenglong Song, 和 Lei Zhu. Restoreagent: 通过多模态大型语言模型实现自主图像修复代理. arXiv预印本arXiv:2407.18035, 2024. 1, 2, 3, 4, 8 [8] Xiangyu Chen, Xintao Wang, Jiantao Zhou, Yu Qiao, 和 Chao Dong. 激活图像超分辨率变换器中的更多像素. 在IEEE/CVF计算机视觉与模式识别会议论文集中，第22367-22377页，2023年. 1, 3, 5, 13 [9] Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Zhong Muyan, Qinglong Zhang, Xizhou Zhu, Lewei Lu 等人. InternVL: 扩大规模视觉基础模型并与通用视觉语言任务对齐. arXiv预印本arXiv:2312.14238, 2023. 14 [10] Marcos V Conde, Gregor Geigle, 和 Radu Timofte. 遵循人类指令的高质量图像修复. arXiv预印本arXiv:2401.16468, 2024. 1, 3, 8 [11] Chao Dong, Yubin Deng, Chen Change Loy, 和 Xiaoou Tang. 使用深度卷积网络减少压缩伪影. 在IEEE国际计算机视觉会议论文集中，第576-584页，2015年. 1, 3 [12] Chao Dong, Chen Change Loy, Kaiming He, 和 Xiaoou Tang. 使用深度卷积网络进行图像超分辨率. IEEE模式分析与机器智能汇刊, 38(2):295-307, 2015. 1, 3 [13] Huiyu Duan, Xiongkuo Min, Sijing Wu, Wei Shen, 和 Guangtao Zhai. UniProcessor: 文本诱导的统一低级图像处理器. 在欧洲计算机视觉会议论文集中，第180-199页. Springer, 2025. 1, 3, 6, 13 [14] Deniz Engin, Anil Genç, 和 Hazim Kemal Ekenel. CycleDeHaze: 增强型CycleGAN用于单图像去雾. 在IEEE计算机视觉与模式识别研讨会论文集中，第825-833页，2018年. 2 [15] Linwei Fan, Fan Zhang, Hui Fan, 和 Caiming Zhang. 图像去噪技术简要回顾. 工业、生物医学和艺术的视觉计算, 2(1):7, 2019. 1, 2, 3 [16] Ben Fei, Zhaoyang Lyu, Liang Pan, Junzhe Zhang, Weidong Yang, Tianyue Luo, Bo Zhang, 和 Bo Dai. 生成扩散先验用于统一的图像修复和增强. 在IEEE/CVF计算机视觉与模式识别会议论文集中，第9935-9946页，2023年. 3 [17] Rich Franzen. Kodak无损真实彩色图像套件. http://r0k.us/graphics/kodak/, 1999. 在线访问日期：2021年10月24日. 6, 16 [18] Xueyang Fu, Xi Wang, Aiping Liu, Junwei Han, 和 ZhengJun Zha. 学习双先验用于JPEG压缩伪影去除. 在IEEE/CVF国际计算机视觉会议论文集中，第4086-4095页，2021年. 1 [19] Leonardo Galteri, Lorenzo Seidenari, Marco Bertini, 和 Alberto Del Bimbo. 深度生成对抗性压缩伪影去除. 在IEEE国际计算机视觉会议论文集中，第4826-4835页，2017年. 1, 2, 3 [20] Yu Guo, Yuan Gao, Yuxu Lu, Huilin Zhu, Ryan Wen Liu, 和 Shengfeng He. OneRestore: 综合退化的通用修复框架. arXiv预印本arXiv:2407.04621, 2024. 3 [21] Jonathan Ho, Ajay Jain, 和 Pieter Abbeel. 去噪扩散概率模型. Advances in neural information processing systems, 33:6840-6851, 2020. 3 [22] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, 和 Weizhu Chen. LoRA: 大型语言模型的低秩适应. arXiv预印本arXiv:2106.09685, 2021. 2, 5, 13, 15 [23] Jia-Bin Huang, Abhishek Singh, 和 Narendra Ahuja. 自转换自我范例的单图像超分辨率. 在IEEE计算机视觉与模式识别会议论文集中，第5197-5206页，2015年. 6, 16 [24] Md Jahidul Islam, Youya Xia, 和 Junaed Sattar. 快速水下图像增强以改善视觉感知. IEEE Robotics and Automation Letters, 5(2):32273234, 2020. 8 [25] Jiaxi Jiang, Kai Zhang, 和 Radu Timofte. 朝向灵活的盲JPEG伪影去除. 在IEEE/CVF国际计算机视觉会议论文集中，第4997-5006页，2021年. 1 [26] Christian Ledig, Lucas Theis, Ferenc Huszár, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, 等. 使用生成对抗网络进行逼真的单图像超分辨率. 在IEEE计算机视觉与模式识别会议论文集中，第4681-4690页，2017年. 1, 3 [27] Boyun Li, Xiao Liu, Peng Hu, Zhongqin Wu, Jiancheng Lv, 和 Xi Peng. 未知损坏的全合一图像修复. 在IEEE/CVF计算机视觉与模式识别会议论文集中，第1745217462页，2022年. 1, 2, 3, 8 [28] Bingchen Li, Xin Li, Yiting Lu, Ruoyu Feng, Mengxi Guo, Shijie Zhao, Li Zhang, 和 Zhibo Chen. PromptCIR: 使用提示学习的盲压缩图像修复. arXiv预印本arXiv:2404.17433, 2024. 5, 13, 14, 15 [29] Junnan Li, Dongxu Li, Silvio Savarese, 和 Steven Hoi. BLIP-2: 使用冻结图像编码器和大型语言模型引导的语言-图像预训练. 在国际机器学习会议上，第1973019742页. PMLR, 2023. 3 [30] Ruoteng Li, Robby T Tan, 和 Loong-Fah Cheong. 使用架构搜索的全合一恶劣天气去除. 在IEEE/CVF计算机视觉与模式识别会议论文集中，第3175-3185页，2020年. 3 [31] Xin Li, Xin Jin, Jianxin Lin, Sen Liu, Yaojun Wu, Tao Yu, Wei Zhou, 和 Zhibo Chen. 学习解耦特征表示用于混合失真图像修复. 在计算机视觉-ECCV 2020: 第16届欧洲会议，格拉斯哥，英国，2020年8月23-28日，会议记录，第XXIX 16卷，第313-329页. Springer, 2020. 4, 5 [32] Xin Li, Bingchen Li, Yeying Jin, Cuiling Lan, Hanxin Zhu, Yulin Ren, 和 Zhibo Chen. UCI: 使用动态提示的通用压缩图像超分辨率框架. arXiv预印本arXiv:2407.13108, 2024. 3 [33] Yawei Li, Yuchen Fan, Xiaoyu Xiang, Denis Demandolx, Rakesh Ranjan, Radu Timofte, 和 Luc Van Gool. 图像恢复的高效和显式建模. 在IEEE/CVF计算机视觉与模式识别会议论文集中，第1827818289页，2023年. 1 [34] Zilong Li, Yiming Lei, Chenglong Ma, Junping Zhang, 和 Hongming Shan. 提示嵌套学习用于通用图像修复. arXiv预印本arXiv:2312.05038, 2023. 2,3 [35] Jingyun Liang, Jiezhang Cao, Guolei Sun, Kai Zhang, Luc Van Gool, 和 Radu Timofte. SwinIR: 使用Swin Transformer进行图像修复. 在IEEE/CVF国际计算机视觉会议论文集中，第1833-1844页，2021年. 1, 3, 5, 8 [36] Bee Lim, Sanghyun Son, Heewon Kim, Seungjun Nah, 和 Kyoung Mu Lee. 增强的深层残差网络用于单图像超分辨率. 在IEEE计算机视觉与模式识别研讨会论文集中，第136-144页，2017年. 3 [37] Haotian Liu, Chunyuan Li, Qingyang Wu, 和 Yong Jae Lee. 视觉指令调整. Advances in neural information processing systems, 36, 2024. 3, 14 [38] Ilya Loshchilov 和 Frank Hutter. SGDR: 带有温暖重启的随机梯度下降. arXiv预印本arXiv:1608.03983, 2016. 15 [39] Ziwei Luo, Fredrik K Gustafsson, Zheng Zhao, Jens Sjöland, 和 Thomas B Schön. 控制视觉语言模型用于通用图像修复. arXiv预印本arXiv:2310.01018, 2023. 3, 6 [40] Jiaqi Ma, Tianheng Cheng, Guoli Wang, Qian Zhang, Xinggang Wang, 和 Lefei Zhang. ProRes: 探索降解感知视觉提示用于通用图像修复. arXiv预印本arXiv:2306.13653, 2023. 3 [41] David Martin, Charless Fowlkes, Doron Tal, 和 Jitendra Malik. 人类分割自然图像数据库及其在评估分割算法和测量生态统计中的应用. 在第八届IEEE国际计算机视觉会议.ICCV 2001, 第416-423页. IEEE, 2001. 6, 16 [42] Yao Mu, Qinglong Zhang, Mengkang Hu, Wenhai Wang, Mingyu Ding, Jun Jin, Bin Wang, Jifeng Dai, Yu Qiao, 和 Ping Luo. EmbodiedGPT: 通过具身思维链进行视觉语言预训练. Advances in Neural Information Processing Systems, 36, 2024. 3 [43] Seungjun Nah, Sanghyun Son, Suyoung Lee, Radu Timofte, Kyoung Mu Lee, Liangyu Chen, Jie Zhang, Xin Lu, Xiaojie Chu, Chengpeng Chen, 等. NTIRE 2021图像去模糊挑战. 在IEEE/CVF计算机视觉与模式识别会议论文集中，第149-165页，2021年. 1, 3 [44] OpenAI. GPT-4 技术报告, 2023. 3, 14 [45] Ozan Özdenizci 和 Robert Legenstein. 使用基于补丁的去噪扩散模型在恶劣天气条件下恢复视力. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(8):10346-10357, 2023. 3 [46] Jinshan Pan, Deqing Sun, Hanspeter Pfister, 和 MingHsuan Yang. 使用暗通道先验的盲图像去模糊. 在IEEE计算机视觉与模式识别会议论文集中，第1628-1636页，2016年. 1, 3 [47] Bumjun Park, Songhyun Yu, 和 Jechang Jeong. 密集连接分层网络用于图像去噪. 在IEEE/CVF计算机视觉与模式识别研讨会论文集中，第0-0页，2019年. 1, 3 [48] Vaishnav Potlapalli, Syed Waqas Zamir, Salman Khan, 和 Fahad Shahbaz Khan. PromptIR: 提示用于全合一盲图像修复. arXiv预印本arXiv:2306.13090, 2023. 1, 2, 3, 5, 8, 13, 14 [49] Rui Qian, Robby T Tan, Wenhan Yang, Jiajun Su, 和 Jiaying Liu. 注意力生成对抗网络用于从单图像中去除雨滴. 在IEEE计算机视觉与模式识别会议论文集中，第2482-2491页，2018年. 2, 6, 16 [50] Xu Qin, Zhilin Wang, Yuanchao Bai, Xiaodong Xie, 和 Huizhu Jia. FFA-Net: 特征融合注意力网络用于单图像去雾. 在AAAI人工智能会议论文集中，第11908-11915页，2020年. 6, 16 [51] Jeff Rasley, Samyam Rajbhandari, Olatunji Ruwase, 和 Yuxiong He. DeepSpeed: 系统优化使深度学习模型能够超过100亿参数进行训练. 在第26届ACM SIGKDD知识发现与数据挖掘国际会议论文集中，第3505-3506页，2020年. 15 [52] Yulin Ren, Xin Li, Bingchen Li, Xingrui Wang, Mengxi Guo, Shijie Zhao, Li Zhang, 和 Zhibo Chen. MoE-DiffIR: 用于通用压缩图像修复的任务定制扩散先验. 在欧洲计算机视觉会议论文集中，第116-134页. Springer, 2025. 3 [53] Baptiste Roziere, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Tal Remez, Jérémy Rapin, 等. Code Llama: 开放的基础代码模型. arXiv预印本arXiv:2308.12950, 2023. 3 [54] Stuart J Russell 和 Peter Norvig. 人工智能：现代方法. Pearson, 2016. 3 [55] Timo Schick, Jane Dwivedi-Yu, Roberto Dessi, Roberta Raileanu, Maria Lomeli, Eric Hambro, Luke Zettlemoyer, Nicola Cancedda, 和 Thomas Scialom. Toolformer: 语言模型可以自己学习使用工具. Advances in Neural Information Processing Systems, 36, 2024. 3 [56] Charlie Snell, Jaehoon Lee, Kelvin Xu, 和 Aviral Kumar. 最优扩展LLM测试时计算比扩展模型参数更有效. arXiv预印本arXiv:2408.03314, 2024. 4 [57] Jiaming Song, Chenlin Meng, 和 Stefano Ermon. 去噪扩散隐式模型. arXiv预印本arXiv:2010.02502, 2020. 3 [58] Gary J Sullivan, Jens-Rainer Ohm, Woo-Jin Han, 和 Thomas Wiegand. 高效视频编码（HEVC）标准概述. IEEE Transactions on circuits and systems for video technology, 22(12):1649-1668, 2012. 2, 15 [59] Gary J Sullivan, Jens-Rainer Ohm, Woo-Jin Han, 和 Thomas Wiegand. 高效视频编码（HEVC）标准概述. IEEE Transactions on circuits and systems for video technology, 22(12):1649-1668, 2012. 2, 15 [60] Haoze Sun, Wenbo Li, Jianzhuang Liu, Haoyu Chen, Renjing Pei, Xueyi Zou, Youliang Yan, 和 Yujiu Yang. COSER: 桥接图像和语言的认知超分辨率. 在IEEE/CVF计算机视觉与模式识别会议论文集中，第25868-25878页，2024年. 3 [61] Xin Tao, Hongyun Gao, Xiaoyong Shen, Jue Wang, 和 Jiaya Jia. 深度图像去模糊的尺度递归网络. 在IEEE计算机视觉与模式识别会议论文集中，第8174-8182页，2018年. 1, 2 [62] Radu Timofte, Eirikur Agustsson, Luc Van Gool, MingHsuan Yang, 和 Lei Zhang. NTIRE 2017 单图像超分辨率挑战：方法与结果. 在IEEE计算机视觉与模式识别研讨会论文集中，第114-125页，2017年. 5 [63] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, 等. Llama 2: 开放的基础和微调聊天模型. arXiv预印本arXiv:2307.09288, 2023. 3 [64] A Vaswani. 注意力就是你所需要的. Advances in Neural Information Processing Systems, 2017. 3 [65] Wenjing Wang, Chen Wei, Wenhan Yang, 和 Jiaying Liu. GLADNet: 全局感知的低光增强网络. 在2018年第13届IEEE自动面部与手势识别国际会议（FG 2018）论文集中，第751-755页. IEEE, 2018. 2 [66] Xintao Wang, Liangbin Xie, Chao Dong, 和 Ying Shan. Real-ESRGAN: 使用纯合成数据训练真实世界的盲超分辨率. 在IEEE/CVF国际计算机视觉会议论文集中，第1905-1914页，2021年. 1, 5, 13, 15 [67] Zhendong Wang, Xiaodong Cun, Jianmin Bao, Wengang Zhou, Jianzhuang Liu, 和 Houqiang Li. Uformer: 用于图像修复的通用U形变换器. 在IEEE/CVF计算机视觉与模式识别会议论文集中，第17683-17693页，2022年. 3, 8 [68] C Wei, W Wang, W Yang, 和 J Liu. 深度Retinex分解用于低光增强. arxiv 2018. arXiv预印本arXiv:1808.04560. 6, 16 [69] Yanyan Wei, Zhao Zhang, Jiahuan Ren, Xiaogang Xu, Richang Hong, Yi Yang, Shuicheng Yan, 和 Meng Wang. Clarity ChatGPT: 用于图像修复和增强的交互式自适应处理系统. arXiv预印本arXiv:2311.11695, 2023. 3 [70] Patrick Wieschollek, Michael Hirsch, Bernhard Scholkopf, 和 Hendrik Lensch. 学习盲运动去模糊. 在IEEE国际计算机视觉会议论文集中，第231-240页，2017年. 1 [71] Haoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, Xiaohong Liu, Guangtao Zhai, Shiqu Wang, 和 Weisi Lin. 朝向开放式的视觉质量比较, 2024. 4, 5, 14, 15 [72] Bin Xia, Yulun Zhang, Shiyin Wang, Yitong Wang, Xinglong Wu, Yapeng Tian, Wenming Yang, 和 Luc Van Gool. DiffIR: 高效扩散模型用于图像修复. 在IEEE/CVF国际计算机视觉会议论文集中，第13095-13105页，2023年. 1, 3 [73] Qunliang Xing, Mai Xu, Tianyi Li, 和 Zhenyu Guan. 是否提前退出：资源高效的盲质量增强用于压缩图像. 在欧洲计算机视觉会议论文集中，第275-292页. Springer, 2020年. 1 [74] Jingkang Yang, Yuhao Dong, Shuai Liu, Bo Li, Ziyue Wang, Chencheng Jiang, Haoran Tan, Jiamu Kang, Yuanhan Zhang, Kaiyang Zhou, 等. Octopus: 从环境反馈中学习的具身视觉语言编程器. arXiv预印本arXiv:2310.08588, 2023. 3 [75] Wenhan Yang, Robby T Tan, Jiashi Feng, Jiaying Liu, Zongming Guo, 和 Shuicheng Yan. 深度联合雨检测与去除来自单张图像. 在IEEE计算机视觉与模式识别会议论文集中，第1357-1366页，2017年. 2, 5, 6, 16 [76] Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, 和 Jingren Zhou. mPLUG-Owl2: 通过模态协作革新多模态大型语言模型. arXiv预印本arXiv:2311.04257, 2023. 14 [77] Fanghua Yu, Jinjin Gu, Zheyuan Li, Jinfan Hu, Xiangtao Kong, Xintao Wang, Jingwen He, Yu Qiao, 和 Chao Dong. 规模扩大到卓越：实践野外照片真实图像修复的模型缩放. arXiv预印本arXiv:2401.13627, 2024. [78] Ke Yu, Chao Dong, Liang Lin, 和 Chen Change Loy. 使用深度强化学习打造图像修复工具链. 在IEEE计算机视觉与模式识别会议论文集中，第2443-2452页，2018年. 2, 3, 4 [79] Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, 和 Ming-Hsuan Yang. Restormer: 用于高分辨率图像修复的有效变换器. 在IEEE/CVF计算机视觉与模式识别会议论文集中，第5728-5739页，2022年. 1, 3, 8 [80] Kai Zhang, Wangmeng Zuo, Yunjin Chen, Deyu Meng, 和 Lei Zhang. 超过高斯去噪器：用于图像去噪的深度CNN残差学习. IEEE图像处理汇刊, 26(7):3142-3155, 2017年. 1, 3 [81] Kai Zhang, Wangmeng Zuo, 和 Lei Zhang. FFDNet: 一种快速且灵活的CNN图像去噪解决方案. IEEE图像处理汇刊, 27(9):4608-4622, 2018年. 1 [82] Kai Zhang, Jingyun Liang, Luc Van Gool, 和 Radu Timofte. 设计一个实用的深度盲图像超分辨率退化模型. 在IEEE/CVF国际计算机视觉会议论文集中，第47914800页，2021年. 1, 13 [83] Kai Zhang, Yawei Li, Jingyun Liang, Jiezhang Cao, Yulun Zhang, Hao Tang, Radu Timofte, 和 Luc Van Gool. 实践盲去噪：Swin-Conv-Unet和数据合成. arXiv电子印刷品, 第arXiv-2203页, 2022年. 1 [84] Kaihao Zhang, Wenqi Ren, Wenhan Luo, Wei-Sheng Lai, Björn Stenger, Ming-Hsuan Yang, 和 Hongdong Li. 深度图像去模糊综述. 国际计算机视觉杂志, 130(9):2103-2130, 2022年. [85] Lei Zhang, Xiaolin Wu, Antoni Buades, 和 Xin Li. 局部方向插值和非局部自适应阈值的颜色去马赛克. 电子成像期刊, 20(2): 023016-023016, 2011年. 6, 16 [86] Yulun Zhang, Yapeng Tian, Yu Kong, Bineng Zhong, 和 Yun Fu. 残差密集网络用于图像超分辨率. 在IEEE计算机视觉与模式识别会议论文集中，第2472-2481页，2018年. [87] Kaiwen Zhu, Jinjin Gu, Zhiyuan You, Yu Qiao, 和 Chao Dong. 解决复杂图像修复问题的智能代理系统. arXiv预印本arXiv:2410.17809, 2024. 1, 2, 3, 4 # 混合代理图像修复
补充材料
6. 关于修复工具的更多细节
在本节中，我们提供了更多细节以支持主文中第3.2节的主张。
6.1. 修复模型的网络架构
我们为修复工具的构建提出了一个三阶段训练配方。在第一阶段，我们的目标是学习一个涵盖各种任务常见知识的通用修复模型。因此，我们遵循有前途的提示学习相关工作 [48] 并采用增强版本 [28] 来进一步提高修复模型的表现能力。详细模型架构如图7所示。
6.2. LoRA 微调修复工具
我们使用LoRA [22] 来有效地根据第一阶段训练良好的模型构建特定任务的修复工具。我们遵循一般实现，在生成Q、K和V的注意力块层中添加低秩矩阵。此外，LoRA还被添加到前馈块中的线性层。RHAG [8] 采用了类似的实现。具体细节如图8所示。
6.3. 混合失真的生成
为了定制混合修复工具，我们进一步在在线生成的混合退化图像对上微调修复模型。由于Real-ESRGAN [66] 和BSRGAN [82] 中的退化管道在混合和现实世界退化去除方面表现出有希望的结果，我们遵循这种设计并构建了一个包括我们10种退化类型的退化管道，如图9所示。考虑到雨线、雨滴、雾霾和低光本质上是现实世界的退化，我们仅在这些四种类型的退化上添加噪声/JPEG以形成混合退化。在10种退化中，我们使用现有的数据集用于雨线、雨滴、雾霾和低光。对于其他六种退化，我们合成图像对。具体合成方法如下：

高斯模糊：我们添加高斯模糊，其sigma值范围为0.2到4。
运动模糊：我们遵循[13]中的实现。
高斯噪声：我们添加强度值范围为15到50的高斯噪声。
JPEG压缩：我们添加质量因子在10到40之间的JPEG压缩。
HEVC压缩：我们添加HEVC压缩（HM18.0），其三个质量因子分别为32、37和42，其中较高的值表示更差的图像质量。
VVC压缩：类似于HEVC，我们添加VVC压缩（VTM-21.0），其三个质量因子分别为32、37和42。

6.4. 指令微调数据集的构建

在本节中，我们分别提供更多关于SlowAgent和FeedbackAgent指令微调数据集的构建细节。此外，我们提供一些例子以便更直观地说明构建的指令微调数据集。

6.4.1. SlowAgent的指令微调数据集

一旦FastAgent将用户提示分类为模糊提示，它将调用SlowAgent自动完成修复过程。因此，SlowAgent的任务是检测失真并选择适当的修复工具。因此，我们基于图像的失真类型和相应的修复工具构建了指令微调数据集。正如主文第3.3节和第4.1节所述，我们基于11种失真类型（即10种单一失真类型和一种混合失真类型）构建了指令微调数据集。对于每个图像-文本对，我们使用以下格式：“[用户：.], [助手：失真：. 调用：去-工具.]”，其中“问题”从表5中随机选择，“类型”表示失真类型。值得注意的是，为了避免多模态大语言模型（MLLM）过度拟合问题而非图像失真识别，我们使用GPT随机生成20个不同的问题。

此外，为了使SlowAgent能够在图像中稳健地识别失真类型，我们构建了一个包含70k样本的数据集。我们为每种单一失真生成5k图像-文本对，为混合失真生成20k对。对于混合失真，我们分别为带噪声/JPEG的雨线、雨滴、雾霾和低光各生成2k图像-文本对。我们使用第6.3节描述的失真管道生成另外12k混合失真图像-文本对。

6.4.2. FeedbackAgent的指令微调数据集

在我们的HybridAgent系统中，SlowAgent负责识别图像中的失真。然而，它缺乏确定修复过程是否应该终止或继续的能力。因此，我们开发了一个FeedbackAgent来确定图像是否干净，为修复过程提供支持。对于每个图像-文本对，我们使用以下格式：“[用户：这是一张已修复的图像。修复历史：去。现在是否干净？]，[助手：是。调用：结束。]” 或 “[助手：否。调用：SlowAgent.]”，其中“结束”表示修复过程已完成。根据主文第3.3节的描述，我们构建了30k图像-文本对用于“干净”和33k图像-文本对用于“不干净”。对于“干净”样本，我们生成25k图像-文本对：(i) 使用正确工具修复的单一失真图像（每种单一失真2.5k对），(ii) 使用混合修复工具修复的混合失真图像2.5k对，以及 (iii) 使用混合修复工具修复的单一失真图像2.5k对。对于“不干净”样本，我们生成8k图像-文本对：(i) 使用错误工具修复的单一失真图像，以及 25k图像-文本对：(ii) 使用单一修复工具修复的混合失真图像（每种任务特定修复工具2.5k对）。

7. 更多实现细节

7.1. HybridAgent 的指令微调

当前关于MLLM的研究通常集中在构建在各种任务中表现出色的模型 [2, 9, 37, 44]。然而，这种泛化往往限制了它们在需要专业知识的任务中的表现，例如IR。为了使MLLM适应SlowAgent和FeedbackAgent的角色，我们遵循先前的工作 [37, 71, 76] 并采用指令微调。 SlowAgent. 由于SlowAgent的主要任务是检测失真并选择适当的修复工具，因此指令微调数据集必须涵盖广泛的失真类型，并设计相应的文本输出作为修复工具的调用命令。具体来说，为覆盖大多数实际应用场景，我们构建的数据集包含10种失真：噪声，

图9. 我们用于合成混合退化的失真管道。值得注意的是，对于雨线、雨滴、雾霾和低光图像，我们仅添加高斯噪声或JPEG失真。“其他模糊”和“其他噪声”指的是Real-ESRGAN [66] 中实现的额外类型的模糊和噪声。在合成过程中，我们确保每张图像至少包含两种类型的失真。

表5. 我们用于构建SlowAgent指令微调数据集的问题列表。

问题

这张图像的失真类型是什么？这张图像中存在哪种失真？这里可以观察到哪种类型的图像失真？这张图像中可见的失真效果是什么？你能识别这张图像中的失真吗？这张图像中的失真是什么性质？这张图像受到了哪种类型的失真影响？这张图像中明显的失真形式是什么？这张图像是如何失真的？这张图像显示了什么样的图像失真？这张图像中有什么样的视觉失真？这张图像表现出什么样的失真？这张图像的具体失真类型是什么？这张图像是如何视觉失真的？这张图像中出现了什么样的改变或失真？在这张图像中可以看到什么样的失真？这张图像中明显可见的图像失真效果是什么？这张图像的失真模式是什么？你能描述这张图像中存在的失真吗？这张图像中明显的失真特征是什么？

高斯模糊，运动模糊，JPEG，HEVC [58]，VVC [3]，雨线，雨滴，雾霾，低光。此外，这些失真的组合被认为是第11种类型。我们在补充材料中提供了更多细节。由于SlowAgent的失真识别应独立于图像内容和分辨率，我们应用随机旋转和翻转作为增强。我们将图像随机裁剪至到的分辨率之间。我们的SlowAgent指令微调数据集包含70k图像-文本对，使微调后的模型能够稳健地识别图像失真类型。更多细节见补充材料。 FeedbackAgent. 另一方面，由于没有现有的MLLM能够可靠地评估修复后的图像是否干净，因此对FeedbackAgent进行指令微调至关重要。为此，我们构建了一个包含约60k图像-文本对的附加数据集，其中图像被标记为“干净”或“不干净”。我们将“干净”定义为：(i) 使用正确工具修复的单失真图像，(ii) 使用混合修复工具修复的混合失真图像，或(iii) 使用混合修复工具修复的单失真图像。相反，“不干净”包括：(i) 使用错误工具修复的单失真图像，或(ii) 使用单个修复工具修复的混合失真图像。

7.2. 训练细节

HybridAgent的训练主要包含两部分：(i) 构建修复工具，和(ii) SlowAgent和FeedbackAgent的指令微调。为了构建修复工具，我们首先跨10种失真训练一个基于提示学习的全合一模型 [28]，初始学习率为并通过余弦退火逐步衰减至。采用AdamW优化器训练模型600k次迭代。在训练期间，图像对被裁剪为的补丁，并使用随机水平和垂直翻转作为数据增强。随后，我们利用LoRA（秩为8）来定制我们的任务特定修复工具。对于每个工具，具有LoRA权重的模型进一步以固定学习率优化100k次迭代。因此，为了构建混合修复工具，我们进一步在混合失真上微调一组新的LoRA权重200k次迭代，采用固定学习率。对于阶段I，我们使用8块RTX 3090 GPU进行训练，总批次大小为32。对于阶段II和III，我们使用4块4090 D GPU，总批次大小为16。我们在表6中提供训练时间。值得注意的是，在阶段III中，我们在线生成混合失真样本以节省存储空间，其中HEVC [59] 和VVC [4] 的压缩过程消耗了大量时间。

我们对Co-Instruct [71] 模型进行指令微调以适应我们的HybridAgent，因为它在与失真相关的问答任务中表现出色。对于两个代理，我们使用4块RTX 4090D GPU和总批次大小为256通过LoRA [22] 进行微调。初始学习率设置为并通过余弦退火逐渐衰减至0。每个代理训练2个epoch，SlowAgent大约需要2.5小时，而FeedbackAgent大约需要1.5小时。DeepSpeed [51] 被用来加速训练过程。表6. 修复工具的训练消耗。值得注意的是，我们在第三阶段在线生成混合退化样本以节省存储空间，其中HEVC和VVC的压缩过程消耗了大量时间。

	可训练参数数 (M)	训练时间 (小时)
阶段 I	34.79	87.71
阶段 II	6.49	8.98
阶段 III	6.36	31.47

表7. 混合失真测试集的样本数量。总共我们生成200张图像用于评估混合失真去除。

混合失真	样本数量
模糊 + JPEG	20
模糊 + 噪声	20
模糊 + 噪声 + JPEG	20
运动模糊 + JPEG	20
运动模糊 + 噪声	20
运动模糊 + 噪声 + JPEG	20
雨线 + JPEG	10
雨线 + 噪声	10
雨滴 + JPEG	10
雨滴 + 噪声	10
雾霾 + JPEG	10
雾霾 + 噪声	10
低光 + JPEG	10
低光 + 噪声	10

7.3. 测试集的更多细节

除了单失真去除外，评估HybridAgent的混合失真去除能力也至关重要。为此，我们总共生成了200张混合退化图像，详细信息见表7。对于前六行，我们从CBSD68 [41]、Urban100 [23]、Kodak24 [17] 和 McMaster [85] 的组合数据集中选择20张图像作为真实值。对于剩余的行，我们从Rain100H [75]、RainDrop [49]、RESIDE-6k [50] 和 LOL [68] 中选择10张失真图像，并进一步添加噪声或JPEG伪影。

7.4. 用户提示的更多细节

用户可以向HybridAgent提供各种文本提示。为了合成这些提示并评估FastAgent的区分能力，我们使用GPT-4生成了总共220个多样化的用户提示。我们在表8中提供了一些样本。值得注意的是，我们假设用户具备精确的失真类型知识以执行直接提示。

表8. GPT-4生成的文本用户提示示例。值得注意的是，我们假设用户具备精确的失真类型知识以执行直接提示。

表9. 混合去除混合失真的性能比较。我们评估PSNR SSIM LPIPS 。

表10. 在第二阶段是否重新初始化提示组件参数的性能比较。我们评估PSNR SSIM 。

7.3. 测试集的更多细节

除了单失真去除外，评估HybridAgent的混合失真去除能力也至关重要。为此，我们总共生成了200张混合退化的图像，详情见表7。对于前六行，我们从CBSD68 [41]、Urban100 [23]、Kodak24 [17] 和 McMaster [85] 的组合数据集中选择20张图像作为真实值。对于其余行，我们从Rain100H [75]、RainDrop [49]、RESIDE-6k [50] 和 LOL [68] 中选择10张失真图像，并进一步添加噪声或JPEG伪影。

7.4. 关于用户提示的更多细节

用户可以向HybridAgent提供各种文本提示。为了合成这些提示并评估FastAgent的区分能力，我们使用GPT-4生成了总共220个多样化的用户提示。我们在表8中提供了一些样本。值得注意的是，我们假设用户具有精确的失真类型知识以执行直接提示。

表8. GPT-4生成的文本用户提示示例。值得注意的是，我们假设用户具有精确的失真类型知识以执行直接提示。

表9. 混合去除混合失真的性能比较。我们评估PSNR SSIM LPIPS 。

表10. 比较在第二阶段是否重新初始化提示组件参数的性能。我们评估PSNR SSIM 。

8. 三阶段训练分析

8.1. 第二阶段的有效性

为了构建不仅共享不同失真去除任务之间的共同知识，还具备任务特定专长的修复工具，我们在主文第3.2节中提出了一个三阶段训练配方。为了展示第二阶段的有效性，我们比较了基础模型和任务特定模型在表11. 比较第一阶段的基础模型和第二阶段的任务特定修复工具在单一失真去除上的性能。我们评估PSNR SSIM 。

10种失真上的表现。如表11所示，任务特定修复工具在基础模型上实现了性能提升。值得注意的是，任务特定工具在处理雨、雾和低光失真时特别优于基础模型。这进一步突显了任务特定工具在使HybridAgent有效处理各种失真中的重要性。如图10所示，尽管基础模型学习了各种失真之间的共同知识，但其处理特定失真的能力可能受到影响。例如，在低光增强中，图像变得过于明亮。因此，对于HybridAgent来说，利用任务特定修复工具有效地处理各种失真至关重要。

另一方面，为了突出不同任务间共享知识的重要性，我们将使用第二阶段的修复工具逐步去除三种混合失真与从零开始训练的任务特定模型进行比较。如表12所示，第二阶段的修复工具表现更好，表明第一阶段学习任务共同知识的有效性。此外，我们只需要存储轻量级的LoRA权重作为修复工具，这对众多失真情况非常友好。表12. 比较逐步去除混合失真的性能。我们评估PSNR SSIM LPIPS 。

8.2. 第三阶段的有效性

为了展示第三阶段训练对混合修复工具的优势，我们将它的性能与从零开始使用相同混合退化管道训练的模型进行了比较。如表9所示，第三阶段训练的混合修复工具在复杂失真（如雨线）方面优于从零开始训练的模型。

8.3. 参数重新初始化的有效性

提示组件作为条件信息，使修复模型能够识别失真并执行适当的去除过程。因此，在第二阶段重新初始化提示组件的参数对于防止模型生成不准确的条件信息至关重要。为了验证这一点，我们在三种设置下进行了实验：(i) 如主文中所述，我们重新初始化了提示组件的参数；

图10. 第一阶段和第二阶段在去雾（顶部）和低光增强（底部）修复结果的定性比较。 (ii) 我们使用第一阶段的相应参数初始化提示组件；(iii) 我们使用第一阶段的相应参数初始化提示组件并在LoRA微调期间保持它们不变。结果如表10所示。比较(i)和(ii)，我们得出结论，重新初始化提示组件对于构建任务特定修复工具至关重要，特别是对于雨滴和低光等困难失真。此外，我们得出结论，LoRA微调比完全微调模型更高效。通过比较(ii)和(iii)，我们进一步验证了第一阶段的提示组件不适合任务特定学习，因为它们生成不准确的失真指导，导致次优结果。

9. 全合一方法的定性结果

在本节中，我们提供了HybridAgent与其他全合一方法的定性比较，以支持主文表4中的结果。如图11所示，HybridAgent在其他方法的基础上实现了更好的修复质量，展示了混合修复工具与任务特定修复工具协作的有效性。

图11. HybridAgent与其他全合一方法的定性比较。从上到下：雾霾+噪声，运动模糊+噪声，雨线+噪声。在这项工作中，我们提出了 HybridAgent，这是一种新颖的通用图像修复互动范式，通过两项关键创新解决了上述挑战：(i) 混合修复代理，包括快速、缓慢和反馈代理，以在自动修复过程中平衡效率和效果；以及 (ii) 集成单退化去除工具的混合退化去除工具，以增强适应性和防止修复过程中的错误传播。

原论文：https://arxiv.org/pdf/2503.1012