OpenBayes 一周速览｜TripoSR 开源：1 秒即 2D 变 3D、经典 GTZAN 音乐数据集上线

OpenBayes

于 2024-05-27 22:06:00 发布

阅读量892

点赞数 20

文章标签：人工智能深度学习数据库官方教程资源上新开源语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OpenBayes/article/details/139249194

版权

公共资源速递

This Weekly Snapshots ！
5 个数据集：

FER2013 面部表情识别数据集

GTZAN 音乐流派分类数据集

MVTec-AD 工业异常检测数据集

UCAS-AOD 遥感目标检测数据集

Oxford 102 Flowers 花卉图片数据集

3 个教程：

Latte 全球首个开源文生视频 DiT

在线运行 TripoSR 模型 Demo

深度学习入门教程：语音识别数字 0-9

访问官网立即使用：http://openbayes.com

公共数据集

1. FER2013 面部表情识别数据集

该数据集包含大约 30,000 张不同表情的面部 RGB 图像，图像的尺寸均为 48×48 像素，主要标注了 7 种类型的表情：0 = 愤怒，1 = 厌恶，2 = 恐惧，3 = 快乐，4 = 悲伤，5 = 惊奇，6 = 中立。

直接使用：

https://go.openbayes.com/DPK80

2. GTZAN 音乐流派分类数据集

GTZAN 数据集包含了 10 个不同类型的音乐样本，每个类型包含 100 个样本。这个数据集最初由 Marsyas 音乐信息检索工具包创建，并被广泛用于评估音乐分类算法的性能。

直接使用：

https://go.openbayes.com/La1f2

3. MVTec-AD 工业异常检测数据集

MVTec-AD 是用于对异常检测方法进行基准测试的数据集，重点是工业检测。它包含 15 个不同的对象和纹理类别的超过 5,000 个高分辨率图像。

直接使用：

https://go.openbayes.com/sopj8

4. UCAS-AOD 遥感目标检测数据集

UCAS-AOD 是一个遥感影像数据集，包含汽车、飞机以及背景负样本。

直接使用：

https://go.openbayes.com/7zPYQ

5.Oxford 102 Flowers 花卉图片数据集

该数据集包含 102 个花的类别，每个类包含 40 到 258 个图像，主要用于图像分类。

直接使用：

https://go.openbayes.com/3PSqZ

公共教程

1. Latte 全球首个开源文生视频 DiT

Latte 是 2023 年 11 月开源的一种用于视频生成的创新模型，Latte 作为全世界首个开源文生视频 DiT，已经取得了很有前景的结果。该教程为 Latte 项目的效果实现 Demo。

在线运行：

https://go.openbayes.com/Mkm0f

2. 在线运行 TripoSR 模型 Demo

TripoSR 由 Stability AI 和 Tripo AI 合作开发，可在 1 秒钟内根据单张图像生成高质量的 3D 模型，并且对算力的需求很低，因此普通用户也可以轻松在本地设备上使用它。该教程已经搭建好了环境，方便大家运行体验。

在线运行：

https://go.openbayes.com/AOPcQ

3. 深度学习入门教程：语音识别数字 0-9

该教程是使用深度学习把语音文件转译为文本数据，检测数字 0-9 的语音，例如把英语「eight」的发音转译为文本「eight」。

在线运行：

https://go.openbayes.com/dBWzn

小贝还建立了「Stable Diffusion 教程交流群」，欢迎小伙伴们入群探讨各类技术问题、分享应用效果~扫描下方二维码添加小贝总微信（微信号：OpenBayes001），备注「SD 教程交流」，即可加入群聊。

以上就是小贝上周在 OpenBayes 的全部更新内容啦~

创作者激励计划第二期活动已开始招募，最高可得 300 元现金奖励，欢迎扫码报名↓

此外，OpenBayes 平台还提供超过 500 个精选公共数据集、模型、教程等优质资源，并已经整合到「公共资源」模块中。OpenBayes 平台支持一键 Input，开箱即用！

关注

20
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
OpenBayes 一周速览｜TripoSR 开源：1 秒即 2D 变 3D、经典 GTZAN 音乐数据集上线

TripoSR 由 Stability AI 和 Tripo AI 合作开发，可在 1 秒钟内根据单张图像生成高质量的 3D 模型，并且对算力的需求很低，因此普通用户也可以轻松在本地设备上使用它。该数据集包含大约 30,000 张不同表情的面部 RGB 图像，图像的尺寸均为 48×48 像素，主要标注了 7 种类型的表情：0 = 愤怒，1 = 厌恶，2 = 恐惧，3 = 快乐，4 = 悲伤，5 = 惊奇，6 = 中立。GTZAN 数据集包含了 10 个不同类型的音乐样本，每个类型包含 100 个样本。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。