kaldi_关于数据预处理

kaldi关于数据预处理

基本数据

四个预处理文件

wav.scp 每条语音的 ID 及其存储路径

wav_id(音频id) wav_path(文件路径)
sen_1 /home/kaldi/data/sen_1.wav
sen_2 /home/kaldi/data/sen_2.wav

text 每条语音的 ID 及其对应文本

wav_id(音频id) text(文本)
sen_1 中国共产党成立100周年
utt2spk 每条语音的 ID 及其说话人 ID
wav_id(音频id) 说话人id
sen_1 speak_1

spk2utt 每个说话人的 ID 及其所说语音的所有 ID

使用 utils/spk2utt_to_utt2spk.pl 或 utils/utt2spk_to_spk2utt.pl 可实现 spk2utt 和 utt2spk 的相关转换

<
说话人id wav_id(音频id)
speak_1
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
EmoDB和SAVEE是两个专门用于情感语音识别(Emotion Recognition from Speech)研究的知名数据集,它们提供了丰富的情感语音样本,用于训练和评估语音情感分析系统。在使用这些数据集进行预处理时,通常会涉及以下几个步骤: 1. **音频预处理**: - **采样率调整**:确保所有录音的采样率一致,可能需要将不同来源的音频转换为统一标准,比如16kHz或44.1kHz。 - **降噪**:去除背景噪音,使用降噪算法如Wiener滤波器、谱减法等。 - **分段和裁剪**:将长音频分割成短片段,通常每个片段对应特定的情感标签。 2. **特征提取**: - **MFCCs (Mel Frequency Cepstral Coefficients)**:计算梅尔频率倒谱系数,这是音频信号的常用特征表示,能够捕捉到声音的频率和能量变化。 - **PLPs (Perceptual Linear Predictions)** 或其他时域或频域特征,如梅尔滤波器组(MFB)、线性预测编码(LPC)等。 - ** prosodic features**:如语调、响度、停顿时间等。 3. **标注处理**: - **情感标签标准化**:如果标签是多级或非结构化的,可能需要将其转换为预定义的情感类别,如愤怒、快乐、悲伤等。 - **标签编码**:将文本标签转化为数值或one-hot编码便于机器学习模型处理。 4. **分割与平衡**: - 对不同情感类别的样本进行平衡,避免训练过程中某类数据过少导致模型偏向。 5. **数据划分**: - 划分训练集、验证集和测试集,通常使用交叉验证方法确保结果的稳定性。 6. **保存和格式化**: - 将预处理后的数据集存储为合适的格式,如CSV、numpy数组或专门用于深度学习的TensorFlow或PyTorch数据集。 如果你打算使用这些数据集,可能还需要对具体的技术栈(如使用哪种工具库,如Librosa、Kaldi或PyTorch的torchaudio)有深入的了解。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值