本文讲述了如何用清华音频数据源data_thchs30中的多段音频数据拼接成完整音频段的方法。
我们在下载data_thchs30后会发现目录下存放有.wav音频文件和.trn文件,在拼接时.trn文件是用不到的,手动删除比较麻烦,我们利用Python代码会让过程变得简单。复制我们需要的拼接的文件(这里包含.wav和.trn)到自定义,文章中是temp目录下。然后删除.trn文件,为下一步拼接做好准备,代码如下:
import os
def delete_files_with_suffix(directory, suffix):
# 遍历指定目录及其所有子目录
for root, dirs, files in os.walk(directory):
for file in files:
# 检查文件是否以指定的后缀结尾
if file.endswith(suffix):
# 构建文件的完整路径
file_path = os.path.join(root, file)
try:
# 删除文件
os.remove(file_path)
print(f"成功删除文件: {file_path}")
except OSError as e:
# 打印删除文件时出现的错误
print(f"删除文件时出错: {file_path} - {e.strerror}")
# 替换为你的目录路径和后缀
directory = "./temp"
suffix &