RVC音色转换软件--声华SingHeart--使用教程--by:深藏blue战队

dakeaia

已于 2024-05-03 14:38:29 修改

阅读量361

点赞数 5

文章标签： pyqt 音频

于 2024-04-13 17:32:24 首次发布

本文链接：https://blog.csdn.net/dakeaia/article/details/137719731

版权

声华软件介绍

软件使用介绍

启动页

在这里您可以选择

说明引导：引导您更了解该软件的使用方法的具体流程
立即开始：即刻开始您的音色转换之旅

启动页图

引导界面

每次打开下级的引导页面都会有弹窗提示您需要注意的事项

注意：引导页面的按钮或者图标只是引导，具体的参数设置您应该跳转到参数设计页面
在这里插入图片描述

在这里您可以点击开启SingHeart之旅直接跳转到启动页

功能界面

在这里插入图片描述

选择您要转换的角色，点击头像后角色背景会高亮显示
输入路径：点击左侧按钮选择您的wav格式音乐
输出路径：您选择输出文件夹后系统会自动获取您的输入文件命并且在输出文件上添加上_converted的后缀，如您想修改输出文件名，可直接在输出路径框内修改
处理设置：
1：背景音分离：这取决于您的输入文件是干声还是带背景音乐的歌曲
如果是干声：无需勾选背景音分离（因为背景音分离也会需要一定的时间），您取消勾选让转化更快
如果是带背景音乐的歌曲：您需要勾选背景音分离，系统会自动调用spleeter来去除背景音乐，方便转化
2：输出干声：
勾选后，系统会为您输出两个音频文件，分别为带背景音乐的歌曲和干声
不勾选：系统会为您输出一个带背景音乐的歌曲
3：模型选择：
转换模型有ONNX模型和Pytorch模型供您选择
4：GPU加速：
如果您电脑已经配置好相应的cuda版本和pytorch版本，您选择GPU加速后系统会自动检索获取您的GPU加速，使转换更为迅捷
如果您没有相应的型号，则保持默认：不启用即可
当然，如果您在没有的情况下也选择GPU加速，系统会自动检测耗费一定的时间，然后又重新在五GPU的情况下转换

参数界面

具体可调参数如图：
在这里插入图片描述
参数解释：

变调数值默认值为0：
整数表征音阶间步进，半音数为音高单位（全音的1/2），升/降八度分别代表+/-12个半音的音高变化。详细解释一下
变调数值：这是一个用整数表示的值，用来指示音乐中的音高变化。默认情况下，它为0，表示音乐保持在原始的调性或音高状态。

音阶间步进：这个整数代表了音乐中音符之间的间距，通常用半音数来表示。在音乐理论中，音阶是一组音符的有序排列，间隔由不同的音程决定，而半音则是最小的音程单位。所以，这个整数决定了音符之间半音的数量，从而影响音乐的音高变化。

半音数为音高单位：半音是音乐中最小的音程单位，它是音阶中相邻两个音符之间的音高差。所以，这个整数的值决定了音符之间的音高差异。

升/降八度：升八度意味着将音高提高12个半音，而降八度则意味着将音高降低12个半音。在音乐中，一个八度代表了音高上的加倍或减半。所以，升/降八度操作会分别增加或减少音符的音高，使其保持在新的八度级别。

重采样值：默认值为40000.
在后处理中对输出的音频进行重新采样，以获得最终的采样率。设置为0表示不重采样。
这是一个用来指示重采样程度的数值。在音频处理中，重采样是指改变原始音频信号的采样率，以便调整音频的播放速度或音质。默认情况下，重采样值为40000，这意味着音频将以新的采样率重新采样，新的采样率由这个值决定。

后处理：在音频处理流程中，重采样通常是在所有其他处理步骤之后进行的。在后处理中对输出的音频进行重新采样，以获得最终的采样率。这个过程可以调整音频的播放速度、音质或与其他音频设备的兼容性。

设置为0表示不重采样：如果将重采样值设置为0，那么音频将不进行重采样处理，保持原始的采样率不变。这在某些情况下可能是必要的，例如，如果需要保持音频的原始音质或避免不必要的音频处理。

中值滤波：默认值为3
如果该值>=3:对收获的音高结果进行中值滤波。该值表示过滤器半径，可以减少呼吸。
中值滤波是一种非线性数字滤波技术，用于去除信号中的噪音或异常值。它的原理是取信号中每个数据点周围一定范围内数据的中值作为该数据点的新值。这种方法相比于其他滤波技术如均值滤波或高斯滤波，在某些情况下更有效，特别是在信号包含大量噪音或异常值时。

默认值为3：改默认值表示中值滤波器的半径。这个半径决定了在进行中值滤波时，每个数据点周围要考虑的数据点数量。如果将默认值设置为3，那么中值滤波器将考虑每个数据点周围半径为3的数据点，计算这些数据点的中值，并将其作为原始数据点的新值。

在音频处理中，中值滤波可以应用于收获的音高结果，以降低可能存在的噪音或异常值。通过设置合适的半径值，可以在保持音频质量的同时减少呼吸或其他不良效应。

包络比例：默认值为0.3
较低的包络比例（接近0）：处理后的音频将更多地受到新加入的效果或特征影响，而减少原始音频的包络特征。这可能会导致处理后的音频与原始音频之间的差异较大，适用于需要强调新特征的音频处理任务。

较高的包络比例（接近1）：处理后的音频将更多地保留原始音频的包络特征，从而使得处理后的音频更接近原始音频的音质和声音特征。这在需要保留原始音频的动态特征或音质的音频处理任务中通常比较适用。
这是一个用于控制音频包络保护程度的参数。在音频处理中，包络通常指的是音频信号的振幅变化。这个参数的默认值为0.3，表示保护一定程度的无声辅音和呼吸音，以防止在电子音乐等应用中出现撕裂或其他伪音效果。

保护无声辅音和呼吸音：这意味着调整包络比例可以在一定程度上保护音频中的无声辅音和呼吸音。在某些音频处理场景下，特别是在电子音乐制作中，这些细微的音频成分可能会因为处理效果而受到损害，而通过调整包络比例，可以减少这种损害。

设置为0.5表示禁用：如果将包络比例设置为0.5，那么包络保护将被禁用，这可能导致一些无声辅音和呼吸音受到处理影响。在某些情况下，禁用包络保护可能是必要的，但需要注意这可能会增加伪音的风险。

降低该值可以增加保护，但可能会降低索引精度：这说明了调整包络比例对音频处理结果的影响。通过降低包络比例，可以增加对无声辅音和呼吸音的保护，但这可能会导致音频索引的精度降低，即可能会影响到音频的一些细微特征或信息。

检索特征占比：这是一个用于调节音频中重音强度的参数。在音频处理中，重音通常指的是音频中的强调部分或高能量部分。检索特征占比的默认值为0.75，表示了在音频处理中考虑重音的程度。

调节重音强度：通过调整检索特征占比，可以控制音频中重音的强度。增加这个值可能会增强音频中的重音部分，而减小这个值可能会减弱重音的强度。这在音频处理中可以用来调整音频的音质或音量分布。
注意过高时可能导致音频出现伪影现象：这段描述提醒了一个重要的注意事项，即调节检索特征占比时要注意不要设定得过高。如果设定过高，可能会导致一些不良效果，例如噪音、失真或不自然的振荡等非原有信号成分。这些效果可能会损害音频的质量或使其听起来不自然。