自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

OpenDataLab的博客

公开数据集平台资讯、资源分享

  • 博客(57)
  • 收藏
  • 关注

原创 有点意思!腾讯 ARC Lab 最新发布的MiraData数据集,用于长视频生成,从这些方面做了clip分层描述……

最近小编网上冲浪时,被腾讯 PCG ARC Lab 新开源的文本-视频数据集——吸引了目光

2024-04-15 12:00:02 784

原创 小小视频-文本标注,LabelU轻松拿下!

最近因为 Sora 模型大火,带动了文生视频任务研究。有小伙伴“吭哧吭哧”上手后,到人工精标数据时迷茫了,不知道选什么视频-文本标注工具为好。小编听了也急的发愁,远在天边,近在眼前,这么好用的视频标注工具——就在网站明晃晃地挂着,可恶,竟然没人知道?!今天可得给你好好说道说道

2024-04-08 19:13:21 699

原创 百里挑一“萃取”数据精华,上海AI实验室开源发布高质量语料“万卷2.0”(万卷CC)

为应对大模型发展对高质量、大规模、安全可信语料数据资源的需求,保障大模型科研攻关及相关产业生态发展,大模型语料数据联盟于2023年7月6日世界人工智能大会开幕式上宣布成立,旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构,联合打造多知识、多模态、标准化的高质量语料数据,探索形成基于贡献、可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。、Redpajama和Refineweb数据集进行了10万条数据的抽样,从毒性、侮辱、恐吓等7个维度进行评分,以验证各数据集的信息安全性。

2024-03-08 14:11:52 1032 6

原创 首场“解数Talk” 直播来了——大模型语料数据联盟开源数据集解读

为帮助广大开发者更好地了解大模型语料数据联盟发布的AI大模型语料数据,沟通大模型企业在AI视角下的数据需求,不断服务大模型产业生态和落地应用,联盟发起单位上海人工智能实验室联合成员单位共同打造。的专家,为大家深度解读一下已开源发布的两个高质量数据集“蜜巢·花粉1.0”和“国际仲裁法律、规则与实践数据集”。联盟旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构,共同推动高水平语料数据要素建设。目前,联盟已开展“寻数计划”、联盟开放日等活动,同成员单位一起在大模型语料数据领域深度开展交流合作。

2023-12-13 12:53:43 187

原创 Open X-Embodiment 超大规模开源真实机器人数据集分享

近期,Google旗下的前沿人工智能企业DeepMind汇集了来自 22 种不同机器人类型的数据,创建了 Open X-Embodiment 数据集并开源了出来。该数据集让他们研发的RT-2 机器人在制造和编程方式上有了重大飞跃。有分析称,在上述数据集上训练的 RT-2-X 在现实世界机器人技能上的表现提高了 2 倍,而且通过学习新数据RT-2-X 掌握了很多新技能。英伟达高级人工智能科学家Jim Fan甚至公开表示,这个数据集可能是机器人的ImageNet时刻。

2023-11-14 15:15:56 946

原创 收藏丨20个医疗场景经典、热门数据集资源汇总

医学分割十项全能是医学图像分割数据集的集合。它总共包含 2,633 张三维图像,这些图像是从多个感兴趣的解剖结构、多种模式和多个来源收集的。具体来说,它包含以下身体器官或部位的数据:大脑、心脏、肝脏、海马体、前列腺、肺、胰腺、肝血管、脾脏和结肠。

2023-11-06 17:28:59 794

原创 寻找最闪亮的 OpenDataLab 数据之星, We want you !

我们诚挚地向您发出邀请,你可以是技术极客,也可以是高校师生,或者AI从业者......只要你对开源感兴趣,愿意贡献你的 AI 数据集或者邀请创作者分享、开源数据集,都可以报名!平台也将帮助原创优质数据集创作者在OpenDataLab上快速成长,获取更多推广资源及科研支持。浩瀚如烟的数据“海洋”里,还有许多制作精良、独具特色、影响深远的 AI 开源数据集,像沧海遗珠般很少被人知晓、挖掘、使用。活动详情见下方,联系博主报名,活动截止 2023.12.31,欢迎大家积极分享~

2023-10-31 15:50:24 145

原创 VIGC:自问自答,高质量视觉指令微调数据获取新思路

VIGC提出了一种新的多模态指令数据构造方式,可以基于无标注的图像自动生成多样性的高质量数据,且基于生成数据可以进一步提升当前模型的性能,可以作为指令数据获取及模型性能提升的新思路。

2023-09-14 19:11:45 176

原创 中国大模型语料数据联盟迎来9家新成员,开源第二批语料数据

为提升语料数据供给水平,推动大模型产业高质量发展加速应用创新与行业落地,9月8日,由中国大模型语料数据联盟(以下简称“语料数据联盟”)主办的数说新语·开放日首场活动在上海人工智能实验室举行。

2023-09-11 15:45:45 329

原创 终于来啦!OpenDataLab 新增自主上传功能,升级CLI/SDK工具、数据集详情页……体验赠好礼~

创作有好礼

2023-09-05 15:09:11 325

原创 《多模态语料库 “书生·万卷” 1.0 详细解读 | 附下载地址》

OpenDataLab 联合大模型语料数据联盟构建了“书生·万卷”数据集,旨在为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料

2023-08-23 19:50:58 538

原创 收藏|43个自动驾驶经典、热门数据集资源汇总

当今社会,自动驾驶技术已成为汽车产业的未来趋势。但是,要想让自动驾驶车辆真正上路行驶,离不开大规模的高质量数据集的支撑。本文将为您介绍43个经典、热门的自动驾驶数据集,希望对您在选择适合的数据集时有所帮助。

2023-06-19 17:46:28 2029 1

原创 基于PySpark的10亿级数据集LAION-5B元数据快速处理实践(全文分享)

多模态大模型训练如火如荼展开,但以LAION-5B为代表的大规模多模态数据集获取却成了一个令人头疼的问题。OpenDataLab两位工程师在浦数 AI Talk做了非常实用的LAION-5B下载经验分享,我们整理了其,希望能对大家下载同类数据集提供帮助和参考。

2023-06-06 18:48:54 1082

原创 行业前瞻|Segment Anything 都发布了,耗时、耗力的人工数据标注还有意义吗?附SA-1B(Segment Anything )数据集国内免费高速下载资源

图像分割(Image是图像处理中的一种技术,也是计算机视觉领域核心任务之一。它是预测图像中每一个像素所属的类别或者物体,输出不同类别的像素级掩码。简单来说,就是将图像中的每个像素标注为属于哪一个对象,比如人、车、树等等,并精细地标注出每个物体的具体位置和形状。大体上,图像分割可以分为三个子任务:实例分割 (instance segmentation)语义分割 (semantic segmentation)全景分割 (panoptic segmentation),这三个子任务都有着大量的算法与模型。

2023-05-09 21:14:02 830 4

原创 人工标注或成过去式?SSA语义分割框架、SSA-engine自动类别标注引擎,大幅提升细粒度语义标注效率

4月5日,Meta发布 Segment Anything 模型和数据集,引发CV届“地震”,其凭借一己之力,成功改写了物体检测、数据标注、图像分割等任务的游戏规则。复旦大学ZVG实验室团队基于此最新开源了SSA语义分割框架和SSA-engine自动注释引擎,可以为所有mask自动地生成细粒度语义标签,填补了中缺乏的细粒度语义标注的空白,为构建大规模语义分割数据集打下基础,也可以用于多模态的特征对齐等研究。最后,我们提供了包含在内的多个数据集快速下载地址,欢迎大家关注与探索。

2023-04-20 14:30:48 849 1

原创 收藏丨20个中文语料数据集,含数学考试、公务员考题、医患对话等

Math23K 是为解决数学单词问题而创建的数据集,包含从互联网上爬取的 23,162 个中文问题。

2023-04-17 20:35:45 2810

原创 资源盘点丨9个经典视觉-语言多模态预训练数据集

在 ChatGPT 引爆社会与学术界的热点后,“大模型”与“多模态”也成为了搜索量攀升的热门词汇。这些体现了大众对人工智能的广泛关注。事实上,人工智能的进步离不开深度学习方法在各个具体任务上的进展。其中,尤其是预训练任务的方法,对人工智能的进步有着重要推进作用。而在各类预训练任务中,模型性能受预训练数据集质量的影响显著。其中,为了获取通用的多模态知识,视觉-语言预训练任务主要使用带有弱标签的视觉-语言对进行模型训练。图像-文本任务主要为图像及标题、内容描述和人物的动作描述等。

2023-03-29 15:39:34 1011

转载 3DTrans: 首个支持自动驾驶室外点云迁移学习的代码库

UDAADASSDAMDF● 入口链接● 3DTrans代码库UDA基线算法的构建目前现有的一些3D点云代码库的可视化模块都是单帧可视化,缺乏针对时序数据的处理。为此,我们在3DTrans代码库中增加了Sequence-level时序级别的可视化UI工具,可视化效果非常直观。目前主要支持对Waymo,ONCE和nuScenes数据集的时序检测结果的可视化。用户可以给定的一个序列ID,来产生对应的可视化内容。Uni3D是我们针对MDF任务设定,提出的一个通用的解决方案。

2023-03-23 17:07:56 261

原创 首个开源室外点云分割工具箱,提供多篇论文算法的强基线复现模型!(已开源)

CSeg高性能点云分割开源框架强力来袭!支持多个公开数据集上多种SOTA算法高精度复现,训练时间更短、分割精度更高,开箱即用。室外点云全景分割研究必备,目前已开源,欢迎star

2023-03-16 16:37:16 716

原创 收藏丨30个大语言模型训练相关的数据集分享

更多数据集,请访问OpenDataLab官网

2023-03-09 11:03:37 5052

原创 2022总结丨 OpenDataLab热门下载数据集Top 20 榜单揭晓

OpenDataLab平台自上线以来,数据集覆盖规模已经超过4500个,任务类型超1200个,提供了超过60TB的数据集资源,吸引了业界朋友的广泛关注

2023-01-29 17:06:34 690

原创 收藏丨OpenDataLab 8个新上架的超大数据集资源分享,涵盖高保真3D人体重建、3D车道线数据集等

本文汇总了OpenDataLab平台上架的多个领域超大规模数据集,内含来自智能数字内容、智能交通等研究团队发布的动态4D人脸数据集、高保真合成人体数据集、多模态人体数据集、高质量物体场景数据、大规模游戏生成数据集、全新的用于检验人体新视角生成的数据集、第一个真实世界和规模最大的 3D 车道数据集等,以飨同好

2023-01-12 17:04:52 1386

原创 64个热门图像分类数据集免费、高速资源分享,涵盖通用视觉、食物、艺术、医疗等多种场景

本期将分享64个图像分类任务相关的热门公开数据集资源

2022-12-02 11:10:50 3842

原创 50个热门语义分割数据集免费、高速下载资源分享,涵盖通用视觉、遥感、自动驾驶、医疗等多种场景题

本期将分享50个语义分割任务相关的热门公开数据集资源,快来看看有没有你想要的吧。

2022-11-23 11:23:23 1532

原创 ECCV2022 商汤 发布最大的表征学习预训练数据集OmniBenchmark解读

来自于商汤的工作者在ECCV2022中提出了OmniBenchmark,这个全新针对于表征学习的benchmark包括了21个类别域(文中称作realm),每个域对应于一个子数据集,一共囊括了7372个视觉类别(文中称作concept),以及1074346张图像,OmniBenchmark包括了绝大多数的视觉类别域

2022-11-18 10:16:53 1124

原创 图像分割竟能如此丝滑、高清?大规模二分图像分割数据集DIS5K解读

具有高精度标注的数据集DIS5K,可用于高精度的模型训练

2022-11-13 08:30:00 1812

原创 新鲜出炉!ECCV2022 107个开源数据集合辑,全球 AI 研究热点一网打尽

今天小编从数据集的角度入手,给大家精选了ECCV2022发布的8个数据集,囊括了庞大的标注数据和新奇又有趣的任务,欢迎大家速速来围观!

2022-11-11 11:35:24 1234

原创 如何一个模型走天下?集成训练多数据集,打造通用目标检测模型方法详解

使用单个数据集训练的目标检测模型已经不能满足需求,如何集成训练多个数据集成为了一大热门研究方向

2022-11-11 08:30:00 1851

原创 手部数据太难找?最全手部开源数据集分享

本期将给大家介绍22个与手部检测、手势识别、手部图像分割等任务相关的公开数据集,包含第一人称、第三人称视角,可用于人机交互、手语翻译、3D建模等场景。

2022-11-10 20:45:00 6599 5

原创 训练数据不够怎么造?yolo5 最有用的trick 之数据增强详解

yolo5应用的trick繁多,此本文将针对yolo5的数据增强方面进行详细解读

2022-11-10 15:28:45 4939 1

原创 图像识别 so easy 丨经典图像分类数据集数据集CIFAR-10解读

​今天,给大家介绍一个经典的图像分类数据集——CIFAR-10,其广泛用于机器学习领域的计算机视觉算法基准测试

2022-11-10 14:35:47 4924

原创 AI Talk 直播丨自动驾驶系统怎么解决多视角信息融合、数据多模态融合、时空异步问题?

10月19日(周三)20:00 上海人工智能实验室 智能交通(平台)算法工程师 闫国行将带来他们的实践分享:1.传感器仿真与应用2.传感器标

2022-10-18 11:58:06 376

原创 80TB!58.5亿!世界第一大规模公开图文数据集LAION-5B 解读

LAION-5B,这个包含超过50亿图像文本对的数据集,进一步扩展了语言视觉模型的开放数据集规模,使得更多研究者能够参与到多模态领域中

2022-10-09 13:51:34 4808

原创 错误标注太多,不想人工检查?试试置信学习来自动找错

众所周知,在机器学习中,测试集是我们用来衡量模型性能的基准。但是,在实际工作中,我们或许会遇到这样一个问题,那就是不论用何种手段获取到的标注数据,都或多或少存在一些标注错误,这对模型精度的提升是一个不可忽视的问题。

2022-08-27 10:00:00 1109 1

原创 前方高能!2000+开源数据集来袭,注意收藏

OpenDataLab平台上新啦~

2022-08-26 07:00:00 1243 2

原创 TrackingNet:最经典大规模、多样化的单目标跟踪数据集

作者发现当前的目标跟踪社区缺少一个大规模的自然场景下专门用于训练目标跟踪模型的数据集;现有的数据集很多没有明确的训练集/测试集的划分

2022-08-25 15:00:00 742

原创 规范使用开源数据集,一定要看License

知识共享许可协议(Creative Commons license),即CC许可协议,是目前全球最受欢迎的数据集许可证,主要涉及4项权利,署名(BY)权,继承(SA)权,非盈利(NC)权,禁止演绎(ND)权

2022-08-23 16:00:00 1742

原创 20万帧,超过88万条实例级车道,14个车道类别……复杂场景的车道识别,可以用这个数据集

为了提高复杂环境下车道识别的准确度,来自上海人工实验室、商汤研究院及上海交通大学等的研究团队发布了业内首个大规模真实场景3D车道数据集——OpenLane

2022-08-23 08:30:00 806

原创 每个种类都整整齐齐?图片分类 STL-10 数据集使用指南

这次给大家介绍的 STL10数据集,是图片分类任务早期常用的基准数据集之一,虽然只有10种样本,图片尺寸也偏小,但是标注类型比较平衡,各种种类都有各500张(train)/800张(test),用于模型训练可以达到比较好的准确度。

2022-08-22 16:00:00 2675

原创 这么好用的开源数据集平台,没人知道的话我们真的会伤心……

来自全球高校、实验室、研究机构的开源数据集,涵盖CV、NLP、语音识别等50余种任务类型,包括各类经典、前沿的模型训练数据、标准测试数据集,在OpenDataLab公开数据集平台轻松一键获取

2022-08-22 15:00:09 990

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除