近期写了一个脚本,目的是把HTK强制校准输出的mlf文件按标注,分割成众多mlf文件
原始文件格式如下:
实现的文件为生成BJ-F001-1001_L16k.lab的文件,里面写入下方的数据,程序如下:
# -*- coding:utf-8 -*-
dicFile = open('aligned.mlf','r')
fid=open('ner_text','wb',encoding='utf-8')
while True:
line = dicFile.readline()
if not line:
break
if '*' in line:
fid=open('%s'%line[3:-2],'w+')
continue
if '.' in line:
continue
fid.write(line)
fid.close()
dicFile.close()