开源项目使用教程:Stuttering Events in Podcasts Dataset (SEP-28k)
ml-stuttering-events-dataset 项目地址: https://gitcode.com/gh_mirrors/ml/ml-stuttering-events-dataset
1. 项目的目录结构及介绍
开源项目“Stuttering Events in Podcasts Dataset (SEP-28k)”的目录结构如下:
CODE_OF_CONDUCT.md
:项目行为准则文件,说明了对参与者的行为要求。CONTRIBUTING.md
:贡献指南,描述了如何参与项目贡献。LICENSE.md
:项目许可证文件,本项目采用Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)。README.md
:项目自述文件,包含了项目的基本信息和用途。SEP-28k_episodes.csv
:包含SEP-28k数据集音频片段的URLs、音频文件名和关键字。SEP-28k_labels.csv
:包含SEP-28k数据集的音频片段标注信息。fluencybank_episodes.csv
:包含FluencyBank数据集音频片段的URLs、音频文件名和关键字。fluencybank_labels.csv
:包含FluencyBank数据集的音频片段标注信息。download_audio.py
:脚本文件,用于下载音频文件。extract_clips.py
:脚本文件,用于从下载的音频文件中提取标注的音频片段。requirements.txt
:项目依赖文件,列出了项目运行所需的外部库。
2. 项目的启动文件介绍
本项目没有特定的启动文件。若要使用该项目,首先需要根据requirements.txt
文件安装所需的Python库。
然后,可以使用download_audio.py
和extract_clips.py
两个脚本来下载数据集并提取音频片段。
3. 项目的配置文件介绍
本项目不包含传统意义上的配置文件。但是,在使用download_audio.py
和extract_clips.py
脚本时,需要指定音频文件的存储目录([WAV_DIR]
)和片段的输出目录([CLIP_DIR]
)。
以下是使用脚本的基本命令:
python download_audio.py --episodes SEP-28k_episodes.csv --wavs [WAV_DIR]
python extract_clips.py --labels SEP-28k_labels.csv --wavs [DATA_DIR] --clips [CLIP_DIR]
python download_audio.py --episodes fluencybank_episodes.csv --wavs [WAV_DIR]
python extract_clips.py --labels fluencybank_labels.csv --wavs [DATA_DIR] --clips [CLIP_DIR]
在上述命令中,[WAV_DIR]
和[CLIP_DIR]
需要替换为实际存储音频文件和片段的文件夹路径。如果这些文件夹在同一目录下,可以直接使用相同的路径。
ml-stuttering-events-dataset 项目地址: https://gitcode.com/gh_mirrors/ml/ml-stuttering-events-dataset