开源项目使用教程:Stuttering Events in Podcasts Dataset (SEP-28k)

开源项目使用教程:Stuttering Events in Podcasts Dataset (SEP-28k)

ml-stuttering-events-dataset ml-stuttering-events-dataset 项目地址: https://gitcode.com/gh_mirrors/ml/ml-stuttering-events-dataset

1. 项目的目录结构及介绍

开源项目“Stuttering Events in Podcasts Dataset (SEP-28k)”的目录结构如下:

  • CODE_OF_CONDUCT.md:项目行为准则文件,说明了对参与者的行为要求。
  • CONTRIBUTING.md:贡献指南,描述了如何参与项目贡献。
  • LICENSE.md:项目许可证文件,本项目采用Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)。
  • README.md:项目自述文件,包含了项目的基本信息和用途。
  • SEP-28k_episodes.csv:包含SEP-28k数据集音频片段的URLs、音频文件名和关键字。
  • SEP-28k_labels.csv:包含SEP-28k数据集的音频片段标注信息。
  • fluencybank_episodes.csv:包含FluencyBank数据集音频片段的URLs、音频文件名和关键字。
  • fluencybank_labels.csv:包含FluencyBank数据集的音频片段标注信息。
  • download_audio.py:脚本文件,用于下载音频文件。
  • extract_clips.py:脚本文件,用于从下载的音频文件中提取标注的音频片段。
  • requirements.txt:项目依赖文件,列出了项目运行所需的外部库。

2. 项目的启动文件介绍

本项目没有特定的启动文件。若要使用该项目,首先需要根据requirements.txt文件安装所需的Python库。

然后,可以使用download_audio.pyextract_clips.py两个脚本来下载数据集并提取音频片段。

3. 项目的配置文件介绍

本项目不包含传统意义上的配置文件。但是,在使用download_audio.pyextract_clips.py脚本时,需要指定音频文件的存储目录([WAV_DIR])和片段的输出目录([CLIP_DIR])。

以下是使用脚本的基本命令:

python download_audio.py --episodes SEP-28k_episodes.csv --wavs [WAV_DIR]
python extract_clips.py --labels SEP-28k_labels.csv --wavs [DATA_DIR] --clips [CLIP_DIR]
python download_audio.py --episodes fluencybank_episodes.csv --wavs [WAV_DIR]
python extract_clips.py --labels fluencybank_labels.csv --wavs [DATA_DIR] --clips [CLIP_DIR]

在上述命令中,[WAV_DIR][CLIP_DIR]需要替换为实际存储音频文件和片段的文件夹路径。如果这些文件夹在同一目录下,可以直接使用相同的路径。

ml-stuttering-events-dataset ml-stuttering-events-dataset 项目地址: https://gitcode.com/gh_mirrors/ml/ml-stuttering-events-dataset

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

尤峻淳Whitney

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值