0. 说明
使用sch给的ForceAlignment好的librispeech语料, 训练ASR, 用来提取PPG
- 960小时均有, 但是有几句长度错误
- 超参数见下面, 不管是第一版audio, 我的audio, 对于mfcc的提取从来都是一样的
- ASR模型沿用的sch的, 而sch沿用的lh的
alignment文件在: 链接:https://pan.baidu.com/s/1pWWH1mUFWsdi9xgbDVa3xQ 提取码:4h5a
Git: https://github.com/ruclion/ppgs_extractor_10ms_sch_lh_librispeech
Lab地址: /datapool/home/hujk17/ppgs_extractor_10ms_sch_lh
第二次提取时, 注:
- 服务器上的Librispeech只有10w条wav, 而不是20+w
- 只使用三个文件即可
0.1. Alignment文件的制作
目前不会TODO...先贴出来大家讨论的供参考~(感谢):
- 方案1: kaldi按步骤(我猜是ForceAlignment的结果, 猜的哈, 具体的去kaldi中应该很简单~)
- 方案2: 可以类似MFA 一样,提取每个音素的时长,再把每一帧