每周编辑推荐｜CCMusic 音乐数据集上线、揭秘英伟达自研大模型 ChipNeMo

最新推荐文章于 2024-06-17 09:35:18 发布

HyperAI超神经

最新推荐文章于 2024-06-17 09:35:18 发布

阅读量1.2k

点赞数 20

文章标签： AI for science 人工智能英伟达

本文链接：https://blog.csdn.net/HyperAI/article/details/135870161

版权

为了使 AI 在音乐训练方面更高效，CCMusic 开源了一些音乐、音频数据集供计算音乐学研究者免费使用，现已在 hyper.ai 上线。此外，hyper.ai 还更新了米哈游、网易云等相关音乐数据集，一起来看看吧！

1 月 22 日-1 月 26 日，hyper.ai 官网更新速览：

优质公共数据集：10 条
AI4S 论文案例：2 篇
热门百科词条：10 条

访问官网：hyper.ai

公开数据集精选

1. CCMUSIC 真假声数据集

该数据集包含 1280 个胸声和假声的单音歌唱音频（.wav 格式），胸声标记为胸声，假声标记为假声。

直接使用：

https://hyper.ai/datasets/29125

2. CCMUSIC 钢琴音质数据集

该数据集包含中国音乐学院琴房中 7 种钢琴（川井立式钢琴、川井三角钢琴、永昌立式钢琴、星海立式钢琴、施坦威大剧院三角钢琴、施坦威三角钢琴和珠江立式钢琴）的 12 个 gamut audio 文件（.wav / .mp3 / .m4a 格式）和 1320 个分割单音音频文件（.wav / .mp3 / .m4a 格式），共计 1332 个文件。此外，还有一份钢琴音质主观评价调查问卷（.xls 格式），包括 29 位参与钢琴音质主观评价者的评分。

直接使用：

https://hyper.ai/datasets/29097

3. CCMUSIC 音乐流派数据集

该数据集包含约 1700 首音乐作品（.mp3 格式），长度为 270-300 秒，总共分为 17 个流派。由于原始音乐的版权问题，数据集中仅提供频谱图。

直接使用：

https://hyper.ai/datasets/29094

4. CCMUSIC 美声民族唱法数据集

本数据集包含数百个由专业歌唱家演唱的无伴奏合唱片段，有两种风格：Bel Conto 和中国民族唱法。所有片段均由专业歌唱家演唱，并在专业商业录音室录制。

直接使用：

https://hyper.ai/datasets/29086

5. 网易云音乐情感分类数据集

该数据集包含约 395,000 条音乐情感标签数据，其中每条数据由歌曲 ID 、歌单 ID 和歌曲的情感标签三个主要列组成。这些数据的来源是网易云音乐官方网站，提供了对歌曲情感进行标记的详尽信息。由于数据集规模较大，适用于构建情感分析模型、进行数据挖掘，并深入理解音乐与情感之间的关联。

直接使用：

https://hyper.ai/datasets/29133

6. miHoYo Music Remix Piano Dataset 米哈游音乐二创钢琴数据集

该数据集主要包含 miHoYo 旗下两款游戏「Genshin Impact」和「Honkai: Star Rail」的钢琴乐曲片段。这些钢琴片段已转换为 ABC 乐谱。研究人员可以利用该资源深入分析音符、旋律结构等音乐特征，为音乐生成算法的训练和增强提供实质性的数据支持。

直接使用：

https://hyper.ai/datasets/29150

7. FMA 音乐分析数据集

FMA 是音乐分析数据集，由整首 HQ 音频、预计算的特征、以及音轨和用户级元数据组成，可用于评估 MIR (Music Information Retrieva) 中的多项任务。

直接使用：

https://hyper.ai/datasets/29162

8. High-Throughput Algae Cell Detection 藻类细胞检测数据集

该数据集来自 2023 IEEE 网络信息学大会「Vision Meets Algae」物体检测挑战赛，包括训练集和测试集。训练集包含 700 张图像，测试集包含 300 张图像，分为 6 个类别。训练集的标注采用 YOLO 格式，每个图像都有一个相应的 .txt 格式的注释文件。

直接使用：

https://hyper.ai/datasets/29158

9. MathVista 数学推理数据集

MathVista 是视觉环境中的综合数学推理基准。它由三个新创建的数据集 IQTest 、 FunctionQA 和 PaperQA 组成，它们分别用于评估拼图测试图的逻辑推理、功能图的代数推理以及学术论文图的科学推理。 MathVista 总共包含从 31 个不同数据集收集的 6,141 个示例。

直接使用：

https://hyper.ai/datasets/29122

10. Animals 10 种动物图像数据集

该数据集包含约 28K 个中等质量的动物图像，属于 10 个类别：狗、猫、马、蜘蛛、蝴蝶、鸡、羊、牛、松鼠、大象。可用于测试不同的图像识别网络。

直接使用：

https://hyper.ai/datasets/29079