![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据集解读
文章平均质量分 91
OpenDataLab
坚持战略性、前瞻性、开放性、公益性的科研理念,践行共享数据资源的推广,打造国际领先的AI数据平台
展开
-
有点意思!腾讯 ARC Lab 最新发布的MiraData数据集,用于长视频生成,从这些方面做了clip分层描述……
最近小编网上冲浪时,被腾讯 PCG ARC Lab 新开源的文本-视频数据集——吸引了目光原创 2024-04-15 12:00:02 · 1010 阅读 · 0 评论 -
首场“解数Talk” 直播来了——大模型语料数据联盟开源数据集解读
为帮助广大开发者更好地了解大模型语料数据联盟发布的AI大模型语料数据,沟通大模型企业在AI视角下的数据需求,不断服务大模型产业生态和落地应用,联盟发起单位上海人工智能实验室联合成员单位共同打造。的专家,为大家深度解读一下已开源发布的两个高质量数据集“蜜巢·花粉1.0”和“国际仲裁法律、规则与实践数据集”。联盟旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构,共同推动高水平语料数据要素建设。目前,联盟已开展“寻数计划”、联盟开放日等活动,同成员单位一起在大模型语料数据领域深度开展交流合作。原创 2023-12-13 12:53:43 · 218 阅读 · 0 评论 -
基于PySpark的10亿级数据集LAION-5B元数据快速处理实践(全文分享)
多模态大模型训练如火如荼展开,但以LAION-5B为代表的大规模多模态数据集获取却成了一个令人头疼的问题。OpenDataLab两位工程师在浦数 AI Talk做了非常实用的LAION-5B下载经验分享,我们整理了其,希望能对大家下载同类数据集提供帮助和参考。原创 2023-06-06 18:48:54 · 1349 阅读 · 0 评论 -
ECCV2022 商汤 发布最大的表征学习预训练数据集OmniBenchmark解读
来自于商汤的工作者在ECCV2022中提出了OmniBenchmark,这个全新针对于表征学习的benchmark包括了21个类别域(文中称作realm),每个域对应于一个子数据集,一共囊括了7372个视觉类别(文中称作concept),以及1074346张图像,OmniBenchmark包括了绝大多数的视觉类别域原创 2022-11-18 10:16:53 · 1166 阅读 · 0 评论 -
图像分割竟能如此丝滑、高清?大规模二分图像分割数据集DIS5K解读
具有高精度标注的数据集DIS5K,可用于高精度的模型训练原创 2022-11-13 08:30:00 · 2244 阅读 · 0 评论 -
图像识别 so easy 丨经典图像分类数据集数据集CIFAR-10解读
今天,给大家介绍一个经典的图像分类数据集——CIFAR-10,其广泛用于机器学习领域的计算机视觉算法基准测试原创 2022-11-10 14:35:47 · 5063 阅读 · 0 评论 -
80TB!58.5亿!世界第一大规模公开图文数据集LAION-5B 解读
LAION-5B,这个包含超过50亿图像文本对的数据集,进一步扩展了语言视觉模型的开放数据集规模,使得更多研究者能够参与到多模态领域中原创 2022-10-09 13:51:34 · 5814 阅读 · 0 评论 -
错误标注太多,不想人工检查?试试置信学习来自动找错
众所周知,在机器学习中,测试集是我们用来衡量模型性能的基准。但是,在实际工作中,我们或许会遇到这样一个问题,那就是不论用何种手段获取到的标注数据,都或多或少存在一些标注错误,这对模型精度的提升是一个不可忽视的问题。原创 2022-08-27 10:00:00 · 1261 阅读 · 1 评论 -
TrackingNet:最经典大规模、多样化的单目标跟踪数据集
作者发现当前的目标跟踪社区缺少一个大规模的自然场景下专门用于训练目标跟踪模型的数据集;现有的数据集很多没有明确的训练集/测试集的划分原创 2022-08-25 15:00:00 · 915 阅读 · 0 评论 -
20万帧,超过88万条实例级车道,14个车道类别……复杂场景的车道识别,可以用这个数据集
为了提高复杂环境下车道识别的准确度,来自上海人工实验室、商汤研究院及上海交通大学等的研究团队发布了业内首个大规模真实场景3D车道数据集——OpenLane原创 2022-08-23 08:30:00 · 911 阅读 · 0 评论 -
每个种类都整整齐齐?图片分类 STL-10 数据集使用指南
这次给大家介绍的 STL10数据集,是图片分类任务早期常用的基准数据集之一,虽然只有10种样本,图片尺寸也偏小,但是标注类型比较平衡,各种种类都有各500张(train)/800张(test),用于模型训练可以达到比较好的准确度。原创 2022-08-22 16:00:00 · 3008 阅读 · 0 评论 -
无人驾驶环境下的图像语义分割 CityScapes 数据集使用方法分享
OpenDataLab平台为大家提供了CityScapes数据集完整的数据集信息、直观的数据分布统计、流畅的下载速度、便捷的可视化脚本,欢迎体验原创 2022-08-22 10:21:44 · 2022 阅读 · 0 评论 -
多目标跟踪 TAO 数据集使用方法分享
众所周知,COCO等类别丰富的大规模数据集极大的促进了目标检测领域的发展,故此,来自CMU等单位的学者推出一个类似COCO的类别多样化的MOT数据集(TAO),用于跟踪任何物体,以期改变多目标跟踪的现状。...原创 2022-08-08 14:42:04 · 2123 阅读 · 0 评论 -
从手写数字识别入门深度学习丨MNIST数据集详解
就像无数人从敲下“Hello World”开始代码之旅一样,许多研究员从“MNIST数据集”开启了人工智能的探索之路。原创 2022-07-13 08:00:00 · 40325 阅读 · 3 评论 -
手把手教你,Stanford Drone 数据集的正确打开方式
这一期,给大家详细解读一下原创 2022-06-30 10:00:00 · 3045 阅读 · 0 评论 -
挑战更高难度的多目标跟踪,MOT20数据集使用指南
行人数据集MOT20,环境更复杂、人群更密集,任务难度更大原创 2022-06-27 10:19:11 · 5103 阅读 · 3 评论 -
详细解读:MIT经典的语义分割数据集ADE20K,附下载链接
给大家带来一份ADE20K 数据集的详细使用“攻略”,助大家模型训练一臂之力原创 2022-06-15 11:27:26 · 11806 阅读 · 5 评论