媲美Midjourney-v6，Kolors最新文生图模型部署

置顶

杰说新技术

已于 2024-07-28 20:20:47 修改

阅读量1.4k

点赞数 22

分类专栏： AIGC 文生图文章标签： AIGC 人工智能

于 2024-07-22 06:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_71062934/article/details/140577263

版权

Kolors模型是由快手团队开发的大型文本到图像生成模型，专门用于将文本描述转换成高质量的图像。

Kolors模型支持中英文双语输入，生成效果与Midjourney-v6相媲美，能够处理长达256个字符的文本输入，具备生成中英文文字的能力。

Kolors模型的技术优势在于其使用了基于U-Net架构的隐空间扩散模型，并引入了大语言模型进行文本表征，这使得它在处理复杂长文本方面表现出色。

Kolors模型在图像美感和质量上达到了国际领先水平，这得益于其两阶段的概念学习和美感提升的渐进训练策略以及针对高分辨率图像特性优化的全新加噪策略。

在评测方面，Kolors模型在智源FlagEval文生图模型评测榜单中主观综合评分全球第二，尤其在主观图像质量上表现突出，评分排名第一。

github项目地址：https://github.com/Kwai-Kolors/Kolors。

一、环境安装

1、python环境

建议安装python版本在3.8以上。

2、pip库安装

pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install pydantic==1.10.2 protobuf==3.20 tensorboard>=1.15.0 -i http

最低0.47元/天解锁文章

杰说新技术

博客等级

码龄3年

53
原创

771
点赞

498
收藏

618
粉丝

关注

私信

热门文章

分类专栏

多模态 15篇
AIGC 46篇
文生图 8篇
文生视频 6篇
英语模型 5篇
3D生成 1篇
ocr 1篇
数字人 4篇
虚拟换衣 1篇
定制化形象 1篇

展开全部收起

最新评论

MuseTalk的最新唇形同步模型落地实践经验总结（不看后悔）
Yesday ? 、温华良故: 这个怎么实时的啊？我执行这个脚本也没看到有实时啊‘’
最新口型同步技术EchoMimic部署
edccc__: pip一直下载报错怎么办
超详细的CogVLM2模型最新微调落地经验
qq_42914012: 博主，只有这些步骤吗？ apt install mpich mpich-doc mpich-committers-dev这一步我显示定位不到软件包还有peft_lora.py中的参数不用改吗？
多语言声音克隆，CosyVoice模型最强部署
baobaobao6: 这些老的库都被删了，安装新的库也不能运行啊
SenseVoice多语言语音理解模型之最新部署落地经验
栀尘ぅ: 这玩意是什么东西，看了半天不知道这玩意怎么用[code=plain] from model import SenseVoiceSmall import time import argparse class VoiceRecognitionModel: def __init__(self, model_dir="SenseVoiceSmall", device="cpu"): self.model_dir = model_dir self.device = device self.model, self.kwargs = SenseVoiceSmall.from_pretrained(model=self.model_dir, device=self.device) def infer(self, input_file, language="auto", use_itn=False): start_time = time.time() result = self.model.inference( data_in=input_file, language=language, use_itn=use_itn, **self.kwargs, ) elapsed_time_ms = (time.time() - start_time) * 1000 print(f"tts time: {elapsed_time_ms:.2f} ms") return result if name == "__main__": parser = argparse.ArgumentParser() parser.add_argument('--voice', type=str, default='voice/test1.wav', help='Path to the voice') args = parser.parse_args() model_dir="SenseVoiceSmall" device="cpu" recognizer = VoiceRecognitionModel(model_dir, device) result = recogni [/code]

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。