语音识别框架speechbrain---speaker-recognition说话人识别/声纹识别:训练自己的数据(1)

本文介绍了如何使用SpeechBrain工具箱进行说话人识别,特别是针对自定义数据集的预处理步骤,包括修改配置文件、处理CSV文件以适应不同采样率和数据分布,以及创建验证集等关键环节。
摘要由CSDN通过智能技术生成

SpeechBrain是使用pytorch实现的灵活,用户友好的语音工具箱,以便用户可以快速实现语音识别,语音增强,信号处理等等任务,目前比较新且无相关文档,现分享相关数据处理pipeline

data prepare(基于voxcleb_prepare.py)

  1. 修改头文件路径 采样率 等信息
  2. 修改csv生成文件方法(voxcleb_prepare中 _get_utt_split_lists)
    我的数据路径
    train—speaker_id—wav文件
    test—speaker_id—wav文件
    dev—speaker_id—wav文件
logger = logging.getLogger(__name__)
OPT_FILE = "cn_dataset_prepare.pkl"
TRAIN_CSV = "train.csv"
DEV_CSV = "dev.csv"
TEST_CSV = "test.csv"
ENROL_CSV = "enrol.csv"
SAMPLERATE = 16000

# DEV_WAV = "train_set.zip"
# TEST_WAV = "train_set.tar.gz.zip"
DEV_WAV = "train_set.tar.gz"
TEST_WAV = "train_set.tar.gz"

META = "meta"


。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。

def _get_utt_split_lists(
    data_folders, split_ratio, verification_pairs_file, split_speaker=False
):
    """
    Tot. number of speakers vox1= 1211.
    Tot. number of speakers vox2= 5994.
    Splits the audio file list into train and dev.
    This function automatically removes verification test files from the training and dev set (if any).
    """
    train_lst = []
    dev_lst = []

    print("Getting file list...")
    for data_folder in data_folders:
        test_lst = [
            line.rstrip("\n").split(" ")[1]
            for line in open(verification_pairs_file)
        ]
        test_lst = set(sorted(test_lst))
        
		# # TODO ---------此处为需要修改的位置 
		# 正则提取speaker_id,这个位置需要根据你的文件名进行修改
        test_spks = [snt.split("/"<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值