DA-CLIP深度学习图像复原项目运行指导(一)

基本信息:

  • 标题:CONTROLLING VISION-LANGUAGE MODELS FOR MULTI-TASK IMAGE RESTORATION
  • 作者:Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sjölund, Thomas B. Schön
  • 机构:Department of Information Technology, Uppsala University
  • 发表日期:该论文是在2024年的ICLR(International Conference on Learning Representations)会议上发表的。
  • papericon-default.png?t=N7T8https://openreview.net/pdf?id=t3vnnLeajU 

简介:

文章提出了一种名为DA-CLIP(Degradation-Aware CLIP)的新型视觉-语言模型,旨在通过结合大规模预训练的CLIP模型与图像恢复网络,提高多任务图像恢复的性能。文章的主要成果包括:

  1. DA-CLIP模型:开发了一个能够适应固定CLIP图像编码器以预测高质量特征嵌入的额外控制器。该控制器还能输出与输入图像实际退化类型相匹配的退化特征。

  2. 多任务图像恢复:DA-CLIP能够在统一的框架下处理特定的图像退化任务,如去雾、去噪、去模糊等,实现高质量的图像恢复。

  3. 混合退化数据集:构建了一个包含十种不同图像退化类型的大型数据集,并使用BLIP框架为高质量图像生成合成标题,用于训练DA-CLIP。

模型结构:

具备退化类型检测功能,Image Controller对CLIP的图像编码器微调

IR-SDE(一种均值回归微分方程,如下图)稍作修改作为图像恢复的基本框架。。论文没有给出具体复原模型的框架图,但对思路进行了描述

图像复原论文解读:IR-SDEicon-default.png?t=N7T8https://blog.csdn.net/qq_20448873/article/details/130457619

相关文章解读:

CONTROLLING VISION-LANGUAGE MODELS FOR MULTI-TASK IMAGE RESTORATION_controlling vision-language models for universal i-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/qq_43800752/article/details/134670677图像恢复最近的工作 - 知乎 (zhihu.com)icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/686235079UniversalImageRestoration | 多任务图像修复-腾讯云开发者社区-腾讯云 (tencent.com)icon-default.png?t=N7T8https://cloud.tencent.com/developer/article/2350183图像重建《Controlling Vision-Language Models for Universal Image Restoration》 - 知乎 (zhihu.com)icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/6701295262023 ICML | 用于通用图像复原的可控视觉与语言模型 - 知乎 (zhihu.com)icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/680311992

实验目标

codeicon-default.png?t=N7T8https://github.com/Algolzw/daclip-uir

readme.md中提示app.py中已有Gradio写好的运行界面。

  1. 下载DA-CLIP和UIR并修改在options/test.yml的模型地址
  2. 运行app.py在http://localhost:7860

!安装虚拟环境,注意请阅读完本人踩过的坑

  • 下载的要么统一mix版或统一非mix版,不然可能出现无法识别的情况。

readme有Ubuntu的参考,但博主尝试在windows中运行。

在Anaconda Prompt 创建conda虚拟环境或者在Anaconda3 Navigator创建,python3.8

想在Anaconda Prompt的项目目录下

pip install -r requirement.txt 

但是一直报错无法全部安装解决办法,一份为多份文件逐次安装)。原因有,

  • 下载源网络连接太差httpconnection error,几十kb/s;(解决办法,换源)

Pip install ** -i https://pypi.tuna.tsinghua.edu.cn/simple/

  • yanked version(已撤回的包版本,不记得哪个包,没有管)

  • nvidia-nccl-cu11==2.14.3报错(不安装了)

  • nvidia-cudnn-cu11==8.5.0.96版本不存在(换新版本)

  • 一个python,import问题但实质是导的包问题

地址没错,但无法调用函数,原来是import另一个文件出错,但是被pass掉了

python import 问题-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/m0_60350022/article/details/136666227?spm=1001.2014.3001.5501

  • options.py的prase方法有一处需要将/改为\\,原因是源代码的工作环境是Linux,而博主采用的是windows的绝对路径名,附上代码注释

    config_dir = path.split("/")[-2]
    修改为
    config_dir = path.split("\\")[-2]

运行及相关结果

  • 界面完善功能齐全。提供的10个样例都能成功运行。具备上传下载,展示对比进度读秒等功能。

  • 部分素材包图像可复原,readme中有素材包链接

  • 问题1:素材包和外部数据集有无法识别任务的情况,下图本意应该是去噪。

问题分析:daclip模型和图像恢复参数版本不匹配,导致无法识别或识别后无法修复。修改为统一mix版或非mix版。博主原先下载的版本:

修改后正常去噪:

  • 问题2:素材包的动作模糊样例全都out of menory,本地GPU运行内存只有6G不够

  • 尝试使用gradio添加外网访问链接。

需要在app.py最后一行改为

interface.launch(share=True)

由于下载的gradio包缺少frpc,无法穿透外网需要对应包的支持

1. Download this file: https://cdn-media.huggingface.co/frpc-gradio-0.2/frpc_windows_amd64.exe

2. Rename the downloaded file to: frpc_windows_amd64_v0.2注意把后面的.exe删去不然无法运行

3. Move the file to this location: C:\Users\86136\anaconda3\envs\DA-CLIP\lib\site-packages\gradio博主的虚拟环境地址中的gradio包的位置,修改为你自己的地址

如果无法连接huggingface,参考下面博文

【Gradio-Windows-Linux】解决share=True无法创建共享链接,缺少frpc_windows_amd64_v0.2_frpc_windows_amd64.exe-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/qq_42531954/article/details/133901919?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171074604416800226586214%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=171074604416800226586214&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-133901919-null-null.142%5Ev99%5Epc_search_result_base7&utm_term=gradio%20share%3Dtrue%E6%97%A0%E6%B3%95%E6%89%93%E5%BC%80&spm=1018.2226.3001.4187成功

需要等一会才能打开。注意关掉梯子才能出外网链接。不然只会提示你查看gradio的连接状态

  • 还未尝试更多外部数据集测试。用手机拍的照片容易OOM

  • 30
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值