YuE 简介
今天文章将介绍一款由香港科技大学发布的最新的AI 音乐生成神器:YuE。这是一系列用于歌词到歌曲的开源基础语言模型,专门用于将歌词转化为完整歌曲(lyrics2song),并将其纳入 LLaMA 家族。YuE 不仅能够生成几分钟的完整歌曲(可长达 5 分钟的音乐音频),还能根据歌词生成吸引人的主唱和伴奏,确保歌曲整体和谐且完整,贯穿整首歌曲遵循歌词条件,保持连贯的音乐结构,生成吸引人的主唱旋律和合适的伴奏。。它支持多种音乐风格和演唱风格,无论是流行还是金属,都能轻松应对。同时支持多种语言,包括中文、英文、日文、韩文等。
YuE音乐生成ComfyUI 体验
社区已有插件 ComfyUI_YuE 支持该模型的 ComfyUI 体验,仅需通过插件管理器安装插件即可。模型可文末获取
- • ComfyUI_YuE插件:https://github.com/smthemex/ComfyUI_YuE
- • 依赖安装:需要安装pip install flash-attn --no-build-isolation。,也可以安装triton加速。如果后续使用量化显存优化mmgp:则需要安装
pip install mmgp
, 使用了exllamav2:同样需要安装pip install exllamav2
。或者使用源码编译方式:
git clone https://github.com/turboderp/exllamav2
cd exllamav2
pip install -r requirements.txt
pip install .
- • YuE 模型:下载模型并放置 ComfyUI/models/yue 目录下。地址:https://huggingface.co/m-a-p/xcodec_mini_infer/tree/main/final_ckpt,https://huggingface.co/m-a-p/YuE-upsampler/tree/main
-- ComfyUI/models/yue
├── ckpt_00360000.pth
├── decoder_131000.pth
├── decoder_151000.pth
- • xcodec_mini_infer:下载模型并放置 ComfyUI/custom_nodes/ComfyUI_YuE/inference/xcodec_mini_infer/semantic_ckpts/hf_1_325000/ 目录下。地址:https://huggingface.co/m-a-p/xcodec_mini_infer/tree/main/semantic_ckpts/hf_1_325000
-- ComfyUI/custom_nodes/ComfyUI_YuE/inference/xcodec_mini_infer/semantic_ckpts/hf_1_325000/
├── pytorch_model.bin
- • YuE-s1-7B-anneal-en-icl:可下载放置任意位置,在节点配置。本文建议放置ComfyUI/models/yue 目录下。英文:YuE-s1-7B-anneal-en-cot或者YuE-s1-7B-anneal-en-icl 或者中文YuE-s1-7B-anneal-zh-cot。目录格式如下:
-- anypath/YuE-s1-7B-anneal-en-icl # 11.5G
├── config.json
├── generation_config.json
├── model.safetensors.index.json
├── tokenizer.model
├── model-00001-of-00003.safetensors
├── model-00002-of-00003.safetensors
├── model-00003-of-00003.safetensors
- • *YuE-s2-1B-general **:可下载放置任意位置,在节点配置。本文建议放置*ComfyUI/models/yue 目录下。地址:https://huggingface.co/m-a-p/YuE-s2-1B-general/tree/main
-- anypath/YuE-s2-1B-general # 3.65G
├── config.json
├── generation_config.json
├── model.safetensors
├── tokenizer.model
- • 另外小于16G显存还可以多种量化模型可用: int8 or int4,exllamav2,deepbeepmeep ,详情参见:https://github.com/smthemex/ComfyUI_YuE?tab=readme-ov-file#3models
- • 本插件依赖模型特别复杂,更多参见插件主页。建议直接文末网盘下载,已放置好模型位置。
YuE音乐生成ComfyUI 工作流体验
YuE 音乐生成 ComfyUI 工作流已上传LIBLIBAI平台可体验:https://www.liblib.art/modelinfo/f7b9627334d84a638ee9e62a39cd6515?versionUuid=23d440061ce0447abe5641826cb58a5e
推荐量化配置
-
• 这里包含多种量化方式适应于不同GPU显存配置,核心选项为fp16/int8,use_mmgp和exllamav2参数选择。请根据自己显存调节合适参数。下面展示位插件作者推荐的一些参数配置。更多细节参见:https://github.com/smthemex/ComfyUI_YuE/tree/main?tab=readme-ov-file#4use-tips
• 显存大于24G,用原生的repo,quantization_model选fp16,关闭use_mmgp,prompt_end_time就是渲染时长先设置为30秒测试(普通玩家的最佳效果)
-
• 显存小于等于16G,用原生的repo,quantization_model选fp16,开启use_mmgp,prompt_end_time就是渲染时长先设置为30秒测试(效果好,但是慢,需要大内存)
-
• 显存小于等于16G,用int8的repo,'quantization_model’选int8,关闭use_mmgp,prompt_end_time就是渲染时长先设置为30秒测试(效果还行,速度奇慢6716s,不要尝试)
-
• 显存小于等于16G,用exllamav2的Q8 repo,'quantization_model’选exllamav2,关闭use_mmgp,exllamav2_cache_mode选择Q8,prompt_end_time就是渲染时长先设置为30秒测试(效果一般,速度非常快)
注意:
- • 提示词工程指南:歌曲提示词应该由三部分组成:风格标签、歌词和参考音频。同时,一个稳定的风格标签提示词通常包含五个部分:风格、乐器、情绪、性别和音色。如果可能的话,这五个部分都应该包含,用空格分隔(空格分隔符)。歌词提示词应分为多个部分,并在每个部分前添加结构标签(例如,[verse]、[chorus]、[bridge]、[outro])。每个部分之间用两个换行符“\n\n”分隔。但是不能在单个段落中放入太多文字,因为每个部分大约持续30 秒(默认值为 --max_new_tokens 3000)。另外 ,[intro] 标签的稳定性较差,因此建议从 *[verse] 或 * [chorus] 开始。
- • 更详细的歌词和提示词书写参考官方指南:https://github.com/multimodal-art-projection/YuE?tab=readme-ov-file#prompt-engineering-guide 。 同时也可以查看top 200标签来撰写歌词提示:https://github.com/smthemex/ComfyUI_YuE/blob/main/top_200_tags.json
- • 整体生成速度较慢,但不同GPU具有多种量化方式可用。
为了帮助大家更好地掌握 ComfyUI,我花了几个月的时间,撰写并录制了一套ComfyUI的基础教程,共六篇。这套教程详细介绍了选择ComfyUI的理由、其优缺点、下载安装方法、模型与插件的安装、工作流节点和底层逻辑详解、遮罩修改重绘/Inpenting模块以及SDXL工作流手把手搭建。
由于篇幅原因,本文精选几个章节,详细版点击下方卡片免费领取
一、ComfyUI配置指南
- 报错指南
- 环境配置
- 脚本更新
- 后记
- …
二、ComfyUI基础入门
- 软件安装篇
- 插件安装篇
- …
三、 ComfyUI工作流节点/底层逻辑详解
- ComfyUI 基础概念理解
- Stable diffusion 工作原理
- 工作流底层逻辑
- 必备插件补全
- …
四、ComfyUI节点技巧进阶/多模型串联
- 节点进阶详解
- 提词技巧精通
- 多模型节点串联
- …
五、ComfyUI遮罩修改重绘/Inpenting模块详解
- 图像分辨率
- 姿势
- …
六、ComfyUI超实用SDXL工作流手把手搭建
- Refined模型
- SDXL风格化提示词
- SDXL工作流搭建
- …
由于篇幅原因,本文精选几个章节,详细版点击下方卡片免费领取