克隆你的音色!!使用你自己的声音做语音合成

代码在文章最后!!!

目录

1.音频数据集(自制)

2.更改设置 

3.换自己的数据集

4.依次运行接下来的代码,

5.合成句子

6.成功试听/下载音频

7.代码源码

1.音频数据集(自制)

提前准备好6段以上音频文件

音频不要太长,也不要太短,建议2s~10s之间

音频尽量是干净人声,不要有BGM声音

保存为 24000采样率(在格式工厂里面更改)格式工厂如何更改采样格式?格式工厂更改采样格式教程_媒体工具_软件教程_脚本之家 (jb51.net)

data:wav/mp3/ogg格式

点击 ,进入 目录上传音频数据到data里面( ), 数据大小不超过 150M

2.更改设置 

3.换自己的数据集

将这示例1代码全部注释,这里我们使用示例3,将示例3代码打开,并检查数据集位置是不是和第一步上传数据集位置相同

4.依次运行接下来的代码,

5.合成句子

在这里换自己相合成的句子 "1": "欢迎使用 Paddle Speech 做智能语音开发工作。"

 

6.成功试听/下载音频

7.代码源码

发现一个大佬的语音合成:路径在这里

【有手就行】使用你自己的声音做语音合成 - 飞桨AI Studio (baidu.com)

  • 2
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
声音克隆是一项非常复杂的任务,需要使用深度学习技术和大量的数据来完成。下面是一个简单的基于Python的声音克隆代码示例,它使用深度神经网络来生成与给定说话者相似的语音: 1.首先,你需要安装一些必要的库,例如 librosa、numpy、pydub、tensorflow、keras 等等。 ``` pip install librosa numpy pydub tensorflow keras ``` 2.读取源说话者的声音文件,提取 MFCC 特征,用于训练模型: ```python import librosa import numpy as np # Load audio file audio_file = "source_speaker.wav" y, sr = librosa.load(audio_file) # Extract MFCC features mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13) ``` 3.将 MFCC 特征用于训练深度神经网络: ```python import tensorflow as tf from keras.models import Sequential from keras.layers import Dense, Dropout, LSTM # Define model architecture model = Sequential() model.add(LSTM(units=256, input_shape=(mfcc.shape[1], mfcc.shape[0]), return_sequences=True)) model.add(Dropout(0.2)) model.add(LSTM(units=256)) model.add(Dropout(0.2)) model.add(Dense(mfcc.shape[0])) # Compile the model model.compile(loss='mean_squared_error', optimizer='adam') # Train the model model.fit(mfcc.T, mfcc.T, epochs=100) ``` 4.读取目标说话者的声音文件,提取 MFCC 特征,将其输入到模型中生成新的语音文件: ```python import pydub from pydub import AudioSegment # Load target speaker audio file target_audio = AudioSegment.from_file("target_speaker.wav", format="wav") # Extract MFCC features target_y = target_audio.get_array_of_samples() target_sr = target_audio.frame_rate target_mfcc = librosa.feature.mfcc(y=target_y, sr=target_sr, n_mfcc=13) # Predict new audio using the trained model predicted_mfcc = model.predict(target_mfcc.T).T # Reconstruct audio from predicted MFCC features predicted_audio = librosa.feature.inverse.mfcc_to_audio(predicted_mfcc) # Convert audio to the same format as the target audio target_audio_format = target_audio.export("temp.wav", format="wav") predicted_audio_format = AudioSegment.from_file("temp.wav", format="wav") # Mix predicted audio with original target speaker audio mixed_audio = target_audio.overlay(predicted_audio_format, position=0) # Save the mixed audio as a new audio file mixed_audio.export("mixed_audio.wav", format="wav") ``` 请注意,这只是一个简单的示例代码,并不能保证能够生成非常准确的声音克隆声音克隆是一个非常复杂的任务,需要更高级的深度学习技术和更多的数据才能生成非常逼真的声音

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值