文生图的开源大模型

文生图的开源大模型

1.Playground v2.5

  • *Huggingface模型下载:*https://huggingface.co/playgroundai

  • *AI**快站模型免费加速下载:*https://aifasthub.com/models/playgroundai

Playground v2.5 在审美质量方面显著超越当前最先进的开源模型 SDXL 和 PIXART-α,以及 Playground v2。由于 Playground V2.5 和 SDXL 之间存在较大的性能差距,因此官方还将它与当前闭源模型如 DALL-E 3 和 Midjourney 5.2 进行了审美质量比较,发现 Playground v2.5 也比这些闭源模型相比表现会更好。

2.腾讯混元DiT架构大模型

链接:https://github.com/Tencent/HunyuanDiT

3.Stable Diffusion

4.Open Sora

文生视频,复现的sora论文

[github.com](https://github.com/hpcaitech/Open-Sora)

5.Stable Video Diffusion

是Stability Al发布的视频生成大模型。

https://github.com/Stability-AI/generative-models

6.MoneyPrinterTurbo

github地址:https://github.com/harry0703/MoneyPrinterTurbo

7.sora平替! StreamingT2V:根据文字提示生成2分钟的视频

https://t.co/h8nsZR8IHv

8.AnimateDiff:成熟的图生视频sd插件!

开源地址:https://github.com/guoyww/animatediff

9.StoryDiffusion:开源的AI故事创作项目,支持生成剧情漫画和故事视频!

github地址:https://github.com/HVision-NKU/StoryDiffusion

10.高效方法!Video-LAVIT:开源图文视频生成大模型! 2

项目地址:https://video-lavit.github.io

11.想动哪里点哪里!创新图生视频模型"Follow Your Click"开源!

想动哪里点哪里!创新图生视频模型"Follow Your Click"开源!

12.Animate Anyone:自动生成动画元素,让照片起舞!

https://github.com/HumanAIGC/AnimateAnyone

13.MuseV:生成表情自然的虚拟人视频新工具!

项目地址:https://github.com/TMElyralab/MuseV

14.腾讯AniPortrait比阿里EMO先开源!

github地址:https://github.com/Zejun-Yang/AniPortrait

15.Champ :国外开源的让照片跳舞的AI项目!

https://github.com/fudan-generative-vision/champ

16.DreamTalk :单张图像一键生成说话视频!

github:https://github.com/ali-vilab/dreamtalk

17.开源!AniTalker:一张照片和输入音频生成生动的能说话的面部视频

GitHub: https://github.com/X-LANCE/AniTalker

18.VASA-1:实现从静态图像和一段语音生成逼真的对话面部动画

https://www.microsoft.com/en-us/research/project/vasa-1/

参考链接:

建议收藏!16个文生视频/图生视频AI开源大模型项目专题汇总! - 哔哩哔哩 (bilibili.com)

### 如何在本地环境中部署文本生成片的大规模预训练模型 #### 准备环境 要在本地环境中成功部署文本生成像的大规模预训练模型,首先需要准备合适的运行环境。这通常涉及到安装必要的依赖库以及配置硬件资源。 对于大多数现代的深度学习框架而言,推荐使用Python作为编程语言,并确保已安装最新版本的CUDA驱动程序以便利用GPU加速计算过程[^2]。具体来说: - 安装Anaconda或Miniconda来管理不同的虚拟环境; - 创建一个新的Conda环境并激活它; -n text_to_image python=3.9 conda activate text_to_image pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113 ``` #### 下载预训练模型 接下来是从官方渠道下载所需的预训练权重文件。许多知名的开源项目都托管于GitHub仓库内,可以直接克隆整个项目获取完整的源码与参数文件。例如,在HuggingFace平台上存在大量高质量的多模态预训练模型可供选择。 假设要加载名为`CompVis/stable-diffusion-v1-4`的文字转模型,则可以通过如下方式完成初始化操作: ```python from diffusers import StableDiffusionPipeline import torch model_id = "CompVis/stable-diffusion-v1-4" device = "cuda" pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16).to(device) ``` #### 配置服务接口 为了让其他应用程序能够方便地调用这个API端口,建议采用Flask或者FastAPI这样的轻量级Web框架搭建RESTful API服务器。这样不仅可以简化前后端交互逻辑,还便于后续维护升级。 以下是基于FastAPI创建简单HTTP POST请求处理器的例子: ```python from fastapi import FastAPI, UploadFile, File from PIL import Image import io app = FastAPI() @app.post("/generate/") async def generate(image: UploadFile = File(...), prompt: str = ""): img_bytes = await image.read() pil_img = Image.open(io.BytesIO(img_bytes)) with torch.no_grad(): output = pipe(prompt=prompt, image=pil_img) return {"result": output} ``` #### 测试与优化 最后一步是对上述设置进行全面测试,确认各项功能正常运作之后再考虑进一步优化性能表现。可能涉及调整批处理大小(batch size),启用混合精度(half precision)运算等方式减少推理延迟时间。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值