文章目录
前言
在深度学习竞赛(如Kaggle、天池等)和研究项目中,获取大量高质量数据是成功的关键因素之一。以下是系统化的数据获取方法和资源大全。
一、公开数据集资源库
1. 综合型数据集平台
Kaggle Datasets (https://www.kaggle.com/datasets)
超过5万个公开数据集
涵盖计算机视觉、自然语言处理、时序数据等领域
特色:附带社区讨论和示例代码
Google Dataset Search (https://datasetsearch.research.google.com)
谷歌推出的数据集搜索引擎
索引超过2500万个数据集
支持按领域、格式、许可证等筛选
UCI Machine Learning Repository (https://archive.ics.uci.edu/ml)
最古老的机器学习数据集库之一
包含500+个经典数据集
适合教学和小规模实验
2. 计算机视觉专用
ImageNet (http://www.image-net.org)
1400万张标注图像,2万多个类别
年度ILSVRC比赛的基础数据集
需要学术用途注册
COCO Dataset (https://cocodataset.org)
对象检测、分割和字幕生成基准
33万张图像,250万个标注实例
提供丰富的API工具包
Open Images (https://storage.googleapis.com/openimages/web/index.html)
Google提供的900万张图像数据集
包含图像级标签、目标边界框和分割掩码
3. 自然语言处理专用
HuggingFace Datasets (https://huggingface.co/datasets)
提供2000+个NLP数据集
统一API接口,支持流式加载
包含GLUE、SQuAD等基准数据集
Common Crawl (https://commoncrawl.org)
每月抓取的数十亿网页数据
原始HTML、提取文本和元数据
适合预训练语言模型
Wikipedia Dumps (https://dumps.wikimedia.org)
多语言维基百科全量数据
包含文章历史、链接结构等
适合知识图谱构建
二、专业领域数据集
1. 医疗健康
MIMIC (https://mimic.mit.edu)
重症监护病房的去标识化数据
包含临床记录、生命体征等
需要伦理认证申请
CheXpert (https://stanfordmlgroup.github.io/competitions/chexpert)
22.4万张胸部X光片
14种病理学的多标签分类
斯坦福大学发布
2. 自动驾驶
Waymo Open Dataset (https://waymo.com/open)
包含高分辨率传感器数据
2000段驾驶场景,60万帧
3D边界框和轨迹标注
nuScenes (https://www.nuscenes.org)
1000个复杂驾驶场景
雷达、激光雷达和相机多模态数据
详细的3D物体标注
3. 遥感与地理空间
NASA EarthData (https://earthdata.nasa.gov)
卫星遥感数据综合门户
包含气候、地形、植被等数据
部分数据需专业工具处理
EuroSAT (https://github.com/phelber/eurosat)
2.7万张卫星图像
10种土地覆盖类型
基于Sentinel-2数据
三、数据生成与增强技术
1. 合成数据生成
Blender合成渲染
import bpy
# 设置场景和相机
bpy.ops.object.camera_add()
# 添加物体并设置材质
# 批量渲染并保存标注
使用Unity Perception (https://github.com/Unity-Technologies/com.unity.perception)
工业级合成数据生成工具
支持随机化参数和自动标注
可导出COCO格式