开源项目使用教程：Stuttering Events in Podcasts Dataset (SEP-28k)-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00291/article/details/147343844

开源项目使用教程：Stuttering Events in Podcasts Dataset (SEP-28k)

ml-stuttering-events-dataset 项目地址: https://gitcode.com/gh_mirrors/ml/ml-stuttering-events-dataset

1. 项目的目录结构及介绍

开源项目“Stuttering Events in Podcasts Dataset (SEP-28k)”的目录结构如下：

CODE_OF_CONDUCT.md：项目行为准则文件，说明了对参与者的行为要求。
CONTRIBUTING.md：贡献指南，描述了如何参与项目贡献。
LICENSE.md：项目许可证文件，本项目采用Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)。
README.md：项目自述文件，包含了项目的基本信息和用途。
SEP-28k_episodes.csv：包含SEP-28k数据集音频片段的URLs、音频文件名和关键字。
SEP-28k_labels.csv：包含SEP-28k数据集的音频片段标注信息。
fluencybank_episodes.csv：包含FluencyBank数据集音频片段的URLs、音频文件名和关键字。
fluencybank_labels.csv：包含FluencyBank数据集的音频片段标注信息。
download_audio.py：脚本文件，用于下载音频文件。
extract_clips.py：脚本文件，用于从下载的音频文件中提取标注的音频片段。
requirements.txt：项目依赖文件，列出了项目运行所需的外部库。

2. 项目的启动文件介绍

本项目没有特定的启动文件。若要使用该项目，首先需要根据requirements.txt文件安装所需的Python库。

然后，可以使用download_audio.py和extract_clips.py两个脚本来下载数据集并提取音频片段。

3. 项目的配置文件介绍

本项目不包含传统意义上的配置文件。但是，在使用download_audio.py和extract_clips.py脚本时，需要指定音频文件的存储目录([WAV_DIR])和片段的输出目录([CLIP_DIR])。

以下是使用脚本的基本命令：

python download_audio.py --episodes SEP-28k_episodes.csv --wavs [WAV_DIR]
python extract_clips.py --labels SEP-28k_labels.csv --wavs [DATA_DIR] --clips [CLIP_DIR]
python download_audio.py --episodes fluencybank_episodes.csv --wavs [WAV_DIR]
python extract_clips.py --labels fluencybank_labels.csv --wavs [DATA_DIR] --clips [CLIP_DIR]

在上述命令中，[WAV_DIR]和[CLIP_DIR]需要替换为实际存储音频文件和片段的文件夹路径。如果这些文件夹在同一目录下，可以直接使用相同的路径。

ml-stuttering-events-dataset 项目地址: https://gitcode.com/gh_mirrors/ml/ml-stuttering-events-dataset