处理数据集的python脚本

def segment(src_dir):
    segment_id = 0
    lines = open(src_dir,'r').readlines()
    temp = lines[0].split(' ')[1].split('_')[1]
    wf = open('./segments_new', 'a', encoding='UTF-8-sig')

    for line in lines:
        utt = line.split(" ")[1]
        utt_id = utt.split('_')[1]
        start = line.split(" ")[2]
        end = line.split(" ")[3]
        if utt_id == temp:
            segment_id_str = "{}_{}".format(utt, str(segment_id).zfill(4))
            print(segment_id_str,utt,start,end)
            segment_id += 1
            wf.write(segment_id_str + ' ' + utt + ' ' + start + ' ' + end + '\n')
        else:
            temp = utt_id
            segment_id = 0
            segment_id_str = "{}_{}".format(utt, str(segment_id).zfill(4))
            print(segment_id_str)
            segment_id += 1
            wf.write(segment_id_str + ' ' + utt + ' ' + start + ' ' + end + '\n')


segment('./segments')

处理前:AMI中MDM格式的音频文件,用kaldi的脚本处理后得到的segment文件
在这里插入图片描述
处理后:改了第一列的数据,从0000开始,一个文件结束后,下个文件从0000重新开始命名文件,从左到右分别为:segment_id_str,utt,start,end
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值