AI唱歌（）之 UVR5使用教程

宸静

于 2025-04-11 21:28:32 发布

阅读量464

点赞数 19

分类专栏： AI翻唱文章标签：人工智能 uv php

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_71939010/article/details/147154606

版权

AI翻唱专栏收录该内容

1 篇文章

订阅专栏

# 第①部分：（红色）

Select Input：导入要处理的音频，可以选择多个音频

Select Output：选择输出音频的目录

# 第②部分：（黄色）

**选择输出音频的格式：**

wav：无损音频，没有被压缩，体积大

flac：无损音频，无损压缩，体积适中

mp3：有损音频，有损压缩，体积小

# 第③部分：（绿色）

## **CHOOSE PROCESS METHOD：选择处理音频的算法**

VR Architecture：使用幅度频谱图进行音源分离。

MDX-Net：采用混合频谱网络进行音源分离。

Demucs：利用混合频谱网络进行音源分离。

Ensemble Mode：将多个模型和网络的结果组合以获得最佳结果。

Audio Tools：提供额外的实用工具，以增加便利性。

**GPU Conversion：使用显卡加速处理（强烈建议勾选，CPU计算的速度非常慢）**

**Sample Mode (??s) ：只处理??秒的音频，可以预览结果**

### **如果处理算法选择****VR Architecture**

WINDOW SIZE：选择窗口大小以平衡质量和速度

1024 - 快速但质量较低。

512 - 中等速度和质量。

==320 - 需要更长时间，但可能提供更好的质量。（推荐，实际上慢不了多少）==

AGGRESSION SETTING：调整主音轨提取的强度

可调范围是[-100, 100]，较大的值意味着更深的提取。

通常，对于人声和器乐，将其设置为5。

超过5的值可能会使非人声模型的声音变得混浊。

#### 下面的选项会随着不同的模型发生变化

Vocals Only：只提取人声

Instrumental Only：只提取伴奏

No Echo Only：只输出去掉混响的音频

Echo Only：只输出混响部分的音频

No Noise Only：只输出降噪后的音频

Noise Only：只输出噪声部分的音频

### **如果处理算法选择MDX-Net**

SEGMENT SIZE：调整切片大小

较小的大小消耗较少的资源。

较大的大小消耗更多资源，但可能提供更好的结果。

==（默认的256即可，长切片对效果的提升微乎其微）==

OVERLAP：控制预测窗口之间的重叠量

较高的值可能会提供更好的结果，但会导致更长的处理时间。

==（默认即可，实测没啥提升）==

下面的选项会随着不同的模型发生变化

Vocals Only：只提取人声

Instrumental Only：只提取伴奏

No Reverb Only：只输出去掉混响的音频

Reverb Only：只输出混响部分的音频

### **如果处理算法选择Demucs**

CHOOSE STEM(s)：选择音轨

Vocals：人声，Bass：贝斯，Drums：鼓，Other：其他乐器

Guitar：吉他，Piano，钢琴（这两项是v4 | htdemucs_6s模型独占)

SEGMENT：调整切片大小

较小的大小消耗较少的资源。

较大的大小消耗更多资源，但可能提供更好的结果。

（默认即可，长切片对效果的提升微乎其微）

### **如果处理算法选择Ensemble Mode**

MAIN STEM PAIR：选择合奏的音轨类型

Vocals/Instrumental：主要音轨：人声，次要音轨：伴奏

Bass/No Bass：主要音轨：贝斯，次要音轨：没有贝斯

Drums/No Drums：主要音轨：鼓，次要音轨：没有鼓

Other/No Other：主要音轨：其他，次要音轨：没有其他

4 Stem Ensemble：汇集所有4音轨Demucs模型并合并所有输出。

Multi-stem Ensemble："丛林合奏"汇集所有模型并合并相关的输出。（不是很懂QAQ）

ENSEMBLE ALGORITHM：选择用于生成最终输出的合奏算法

例如：Max Spec/Min Spec，斜杠前面的对主要音轨（Primary stem）生效,斜杠后面的对次要音轨（Secondary stem）生效，对于“4音轨合奏（4 Stem Ensemble）”选项，只会显示一个算法。

详细解释：

⚪Max Spec：

产生可能的最高输出。

适用于人声音轨，以获得更丰满的声音，但可能会引入不希望的伪影。

适用于器乐音轨，但请避免在合奏中使用VR Arch模型。

⚪Min Spec：

产生可能的最低输出。

适用于器乐音轨，以获得更清晰的结果。可能会导致“浑浊”的声音。

⚪Average：

将所有结果取平均以生成最终输出。

# 第④部分：（蓝色）

小扳手🔧：打开设置

Start Processing：开始处理

小方块■：停止处理

---
# 使用
下载完模型后开始处理音频，select input选择输入文件，select output选择输出文件夹，输出格式选WAV，记得点上**GPU Conversion**（使用GPU），首先选择**MDX-Net**类型使用**Bs-Roformer**-Viperx-1297（目前最好的提取人声的模型，又快又好）提取人声。处理完的音频（vocals）的是人声。然后把人声再输入去混响（下面三选一）：**VR Architecture**：UVR-De-Echo-**Normal**（轻度混响）、UVR-De-Echo-**Aggressive**（重度混响）、UVR-De-Echo-**Dereverb**（变态混响），最后用UVR-**DeNoise**降噪一下。这套流程弄完会比自带的UVR5在人声提取方面好一点。

博客等级

码龄3年

29
原创

173
点赞

320
收藏

4016
粉丝

关注

私信

热门文章

分类专栏

最新评论

ROS(十四): JAKA-minicobo在ROS中的Rviz、Gazebo使用
ApolloVv: 你好，可以请教下有关moveit控制minicobo真实机械臂移动的相关问题吗
ROS(八)：RLException: [xx.launch] is neither a launch file in package [x] nor is [x] a launch filename
云游碧漫歌: 我的是因为包名与节点名不一样
ROS(十三): ArUco-ROS安装
cptbtptpds: Base path: /home/liushan/catkin_ws_eye Source space: /home/liushan/catkin_ws_eye/src Build space: /home/liushan/catkin_ws_eye/build_isolated Devel space: /home/liushan/catkin_ws_eye/devel_isolated Install space: /home/liushan/catkin_ws_eye/install_isolated ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~ traversing 19 packages in topological order: ~~ - aruco (unknown) ~~ - aruco_msgs (unknown) ~~ - aruco_ros (unknown) ~~ - universal_robot ~~ - universal_robots ~~ - ur_bringup ~~ - ur_description ~~ - ur10_moveit_config ~~ - ur3_moveit_config ~~ - ur5_moveit_config ~~ - ur_e_description ~~ - ur10_e_moveit_config ~~ - ur3_e_moveit_config ~~ - ur5_e_moveit_config ~~ - ur_e_gazebo ~~ - ur_gazebo ~~ - ur_kinematics ~~ - ur_msgs ~~ - ur_modern_driver ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Error: Packages with unknown build types exist Can not build workspace with packages of unknown build_type
ROS(十二):Intel RealSense D435安装与使用
sqpfhb: 你好，我按照你的步骤操作，能打开深度画面，但是普通彩色画面就显示不出来是怎么回事呢
ROS(十六): 手眼标定（二）
宸静: 我这里结果还是可以，看你自己做的结果了，有些数据是需要自己做的

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

宸静 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。