来自腾讯AI实验室的Real-ESRGAN将模糊老照片和视频修复成高清晰(一些错误处理)

本文介绍了Real-ESRGAN,一个用于增强超分辨率的对抗生成网络,专注于修复模糊照片和低分辨率视频。文章详细阐述了如何安装和配置所需的Python环境、PyTorch框架及CUDA,以及如何克隆和设置项目。此外,还讨论了可能遇到的问题,如CUDA不可用和显存不足,并提供了相应的解决策略。最后,文章展示了修复效果,并提到了其他预训练模型的使用和在线Demo资源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        Real-ESRGAN:Enhanced Super-Resolution GAN:增强的超分辨率的对抗生成网络,对于GAN相信大家都比较熟悉,前有阿尔法狗,现有很多GAN的延伸版本,StyleGAN1~3系列以及DragGAN对于图片的生成和编辑,出来的效果都很惊艳。
        一些旧照片,时代比较久远了,那个时候的像素不够,所以有点模糊,但这都是一种美好回忆,如果能够修复成高清晰的那就好了。这里的Real-ESRGAN就是对这些模糊照片进行处理,生成高清晰的照片,老旧的视频,颜色和分辨率也是比较差,也可以使用Real-ESRGAN进行修复成高清晰的视频。

1、安装环境

1.1、安装前提条件

Python >= 3.7 和 PyTorch >= 1.7 

一般本人习惯新建一个虚拟环境来安装(建议看完本文章之后再安装):
conda create -n mypytorch python=3.8
conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

安装好了之后就激活环境:activate mypytorch

1.2、克隆仓库

git clone https://github.com/xinntao/Real-ESRGAN.git
cd Real-ESRGAN 
当然在克隆的时候,有时会出现下面这样的错误
fatal: unable to access 'https://github.com/xinntao/Real-ESRGAN.git/': Failed to connect to github.com port 443: Timed out
有时是网络问题,如果多次试了还是不行,那最简的办法就是将https修改成http,哈哈泰裤辣。

1.3、安装依赖包

依然推荐加上豆瓣镜像,下载速度快很多

pip install -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com basicsr
pip install -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com facexlib
pip install -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com gfpgan
pip install -r requirements.txt
python setup.py develop

1.4、预训练模型

安装好了之后,我们来测试下:
python inference_realesrgan.py -n RealESRGAN_x4plus -i 1.png -o newimgs
如果没有下载预训练模型:RealESRGAN_x4plus.pth
在推理阶段将自动进行下载:

当然也可以自己手动先下载(推荐):RealESRGAN_x4plus.pth预训练模型
然后放到\Real-ESRGAN\weights这个权重目录里面即可,建议使用迅雷下载,虽然文件不大,不过下载速度很慢,所以一般都用迅雷快很多。

2、生成效果比较

我们来看几张效果,本人的一些老照片有点模糊,修复之后,清晰度真的非常不错,而且皮肤更好了,做了美颜效果。

老照片修复

当然有兴趣的还可以使用其他的预训练模型,比如:RealESRGAN_x4plus_anime_6B.pth
RealESRGAN_x4plus_anime_6B.pth预训练模型下载
试下效果会怎么样。
视频也可以,在论文里面也有地址,Demo需要科学上网,有兴趣的可以去试试。
python inference_realesrgan.py -n RealESRGAN_x4plus_anime_6B -i 1.png -o newimgs 

这样就会在newimgs文件夹里面生成高清晰的照片了

3、错误处理

在安装之后,运行时会出现一些常见的错误,我们一起来看下

3.1、CUDA不可用

Testing 0 1
Error "slow_conv2d_cpu" not implemented for 'Half'
If you encounter CUDA out of memory, try to set --tile with a smaller number.

没有CUDA的支持,不能实现半精度。于是查看CUDA的状态是否可用:

torch.cuda.is_available()

奇怪的是返回 False

明明上面已经安装了CUDA的,这种情况,一般是版本匹配问题,试着换一个版本重新安装下:
conda install pytorch==2.0.0 torchvision==0.15.0 torchaudio==2.0.0 pytorch-cuda=11.7 -c pytorch -c nvidia
恩,没有问题。返回True

3.2、显存不足

Error CUDA out of memory. Tried to allocate 236.00 MiB (GPU 0; 2.00 GiB total capacity; 1.42 GiB already allocated; 0 bytes free; 1.57 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
If you encounter CUDA out of memory, try to set --tile with a smaller number. 

这个就是显存不足了,本人配置比较低,1050的显卡,一些大点的模型基本都很吃力,所以平时测试的时候一般是调低batchnum,图片的输入分辨率,另外就是将需要用到GPU的进程先结束掉,节省一部分出来。所以这个模型基本上能搞定,有兴趣的可以去试试。

在线Demo:https://arc.tencent.com/en/ai-demos/imgRestore
可执行文件:各种OS的执行文件
github地址:https://github.com/xinntao/Real-ESRGAN
论文地址:ESR_Generative_Adversarial_Networks_ECCVW_2018_paper.pdf
后期有时间将论文和源码全部看一遍再发出来一起学习下。 

<think>好的,用户想了解如何通过提示词生成视频,具体是关于AI图生视频的提示词工具或模型的使用方法。首先,我需要明确用户的需求,他们可能希望从图像生成视频,或者结合文字图像生成视频。接下来,我应该整理相关的工具模型,并参考提供的引用资料。 引用中提到了LivePortraitHunyuanVideo这两个开源模型。LivePortrait支持图生视频,用户可以通过命令行或Web界面使用,这应该是一个重点。HunyuanVideo是腾讯的大模型,参数多,适合高质量视频生成,但可能需要一定的技术基础。另外,用户提到的提示词工具可能涉及KIMI这样的语音模型,用于将歌词转换为画面文字,这可能属于文本到视频的一部分。 需要分步骤说明,比如准备图像、选择工具、输入提示词、调整参数、生成优化。同时要结合具体的工具,比如LivePortrait的两种使用方式,HunyuanVideo的安装步骤,以及提示词优化工具如KIMI的应用。可能还需要提到其他工具如Runway MLPika Labs,以提供更多选择。 注意用户可能遇到的困难,比如本地部署的技术门槛,提示词的具体写法,参数调整的影响。需要给出实际例子,比如使用LivePortrait生成微笑视频,并强调提示词要具体,结合视觉元素。同时,提醒用户参考提供的资料链接,确保信息准确可靠。 最后,确保回答结构清晰,步骤明确,涵盖工具选择、使用流程、优化技巧常见问题,帮助用户全面了解如何使用提示词生成视频。</think>以下是使用AI图生视频提示词工具/模型的完整流程说明: ### 一、工具选择 1. **开源模型推荐**: - $LivePortrait$[^3]:支持单张人像生成动态视频,提供Web可视化界面 - $HunyuanVideo$[^4]:腾讯130亿参数大模型,支持文本+图像联合输入 2. **商业工具**: - Runway ML(支持文字+图像混合输入) - Pika Labs(Discord交互式操作) ### 二、使用流程(以LivePortrait为例) ```python # 本地部署步骤 git clone https://github.com/xxx/LivePortrait # 克隆仓库 conda create -n liveportrait python=3.8 # 创建虚拟环境 pip install -r requirements.txt # 安装依赖 python app.py # 启动Web界面 ``` 1. **准备输入图像**: - 分辨率建议512x512像素 - 人物正面清晰无遮挡 - 背景尽量简洁 2. **提示词构建技巧**: ```markdown 优质提示词结构: [主体描述], [动作描述], [环境细节], [风格参数] 示例: "亚洲女性,微笑眨眼,咖啡馆环境,电影级灯光,4K画质" ``` 3. **参数设置对照表: | 参数项 | 建议值域 | 作用说明 | |--------------|----------|--------------------| | motion_scale | 0.5-2.0 | 动作幅度控制 | | duration | 2-5秒 | 视频时长 | | fps | 24-30 | 帧率设置 | ### 三、优化技巧 1. 组合使用$KIMI$[^2]等提示词优化工具: ```python # 提示词优化示例 原始描述:"一个人在跳舞" 优化后:"拉丁舞者,红色舞裙旋转,舞台聚光灯,慢动作特写" ``` 2. 多模态输入策略: $$图像输入+文本提示词+音频驱动=高精度输出$$ ### 四、常见问题 1. **画面闪烁**:降低motion_scale值,增加关键帧插值 2. **面部扭曲**:使用$MediaPipe$进行面部特征点校准 3. **分辨率不足**:通过$Real-ESRGAN$进行后期超分处理
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

寅恪光潜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值