五、训练自己的语音

五、训练自己的语音
还是使用Bark模型,制作自己的语音格式npz文件,上传后指定该语音播放即可。
1、语音数据npz格式介绍
    提供的数据为.npz 格式,这是 Python 中用于存储数组和数据的文件格式。数据包含三个数组:semantic_prompt、coarse_prompt 和 fine_prompt。
    semantic_prompt 数组包含由 BERT 分词器从 Hugging Face 生成的一系列分词 ID。这些标记对文本输入进行编码,并用作生成音频输出的输入。这个数组的形状是 (n,),其中 n 是输入文本中的标记数。
    coarse_prompt 数组是文本到语音管道的中间输出,包含由 Facebook 的 EnCodec 编解码器的前两个代码簿生成的令牌 ID。此步骤将语义标记转换为更适合后续步骤的不同表示。这个数组的形状是 (2, m),其中 m 是经过 EnCodec Codec 转换后的 token 数量。
    fine_prompt 数组是流水线的进一步处理输出,包含来自 EnCodec 编解码器的 8 个码本。这些码本代表标记化的最后阶段,生成的标记用于生成音频输出。这个数组的形状是 (8, p),其中 p 是经过 EnCodec Codec 进一步处理后的标记数。
    总体而言,这些数组代表将文本输入转换为合成音频输出的文本到语音管道的不同阶段。semantic_prompt 数组表示输入文本,而 coarse_prompt 和 fine_prompt 分别表示标记化的中间和最后阶段。
2、在线克隆
打开这个地址:https://huggingface.co/spaces/fffiloni/clone-voice-for-bark
打开麦克风录制,并输入名称,最后下载npz文件即可;
如果要使用脚本创建,详以下步骤

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

vandh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值