歌曲描述数据集(Song Describer Dataset) 使用指南

钟潜金

于 2024-10-11 07:42:41 发布

阅读量812

点赞数 8

本文链接：https://blog.csdn.net/gitblog_01175/article/details/142840710

版权

歌曲描述数据集(Song Describer Dataset) 使用指南

song-describer-dataset The Song Describer dataset is an evaluation dataset made of ~1.1k captions for 706 permissively licensed music recordings. 项目地址: https://gitcode.com/gh_mirrors/so/song-describer-dataset

项目介绍

歌曲描述数据集(Song Describer Dataset, SDD) 是一个用于音乐与语言任务评估的数据集，含有大约1100条针对706首授权友好的音乐录音的描述性文本。这个项目旨在支持音乐标注、文本到音乐生成以及音乐与文本检索等任务的研究。数据集由Ilaria Manco等人发布，并在ML for Audio workshop @ NeurIPS 2023上被接受。每个音乐片段都配有一段描述其特色和情感的文字，如“带有复古未来感的鼓机节奏，混杂着气泡般的声音特效和一丝酸性贝斯线条”。

项目快速启动

环境准备

首先，确保拥有Python 3环境。推荐创建一个新的虚拟环境以保持项目独立：

python3 -m venv venv
source venv/bin/activate

接下来，克隆项目仓库并安装依赖：

git clone https://github.com/mulab-mir/song-describer-dataset.git
cd song-describer-dataset
pip install -r requirements.txt

数据下载

数据可从Zenodo获取，执行以下命令下载：

wget -P data https://zenodo.org/record/10072001/files/song_describer.csv
wget -P data https://zenodo.org/record/10072001/files/audio.zip
unzip data/audio.zip -d data/audio

示例用法

数据准备完成后，可以利用提供的代码进行基本分析或实验。例如，通过Jupyter Notebook dataset_stats.ipynb 来复现论文中的数据概览统计。

jupyter notebook dataset_stats.ipynb

应用案例和最佳实践

虽然具体的应用案例和最佳实践细节在当前仓库中没有直接提供，开发者可以利用此数据集训练模型进行音乐描述生成。比如，你可以采用PyTorch或TensorFlow框架，结合Transformer架构来训练一个从音频特征到文本描述的模型。记得将音频处理成适合神经网络的特征向量，然后训练模型最小化描述文本的生成损失。

示例伪代码

import torch
from torchaudio import transforms, load
from transformers import GPT2LMHeadModel, GPT2Tokenizer

# 假设已将音频转为特征序列audio_features
# 并且已有预处理的文本tokenizer
audio_features = ...  # 音频特征序列
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2LMHeadModel.from_pretrained('gpt2')

input_ids = tokenizer.encode("这段音乐是", return_tensors="pt")
for feature in audio_features:
    # 基于特征预测下一个单词
    outputs = model(input_ids)
    next_token_logits = outputs.logits[:, -1, :]
    
    # 应用温度采样或其他解码策略
    next_tokens = torch.multinomial(F.softmax(next_token_logits, dim=-1), num_samples=1)
    
    input_ids = torch.cat([input_ids, next_tokens], dim=1)

text_description = tokenizer.decode(input_ids[0])
print(text_description)

请注意，这只是一个简化的概念示例，实际应用需细致设计模型结构、训练流程及验证。