QuickDraw Dataset:开源手绘数据集
1. 项目基础介绍
QuickDraw Dataset 是由 Google Creative Lab 提供的一个开源手绘数据集项目。该项目旨在为开发者、研究人员和艺术家提供大量手绘图像数据,以用于研究、学习和探索。该数据集包含了超过5000万幅手绘图像,涵盖345个类别,这些图像是由 QuickDraw 游戏玩家贡献的。主要编程语言为 Python,同时提供了多种文件格式和工具,方便用户使用和转换数据。
2. 项目核心功能
- 数据集提供:提供原始数据集和预处理后的数据集,包括 ndjson、bin 和 npy 格式的文件,以满足不同用户的需求。
- 多样化类别:涵盖345个类别,从简单的图形到复杂的物体,为不同研究提供了丰富的素材。
- 时间戳和地理位置信息:每幅图像都带有时间戳和地理位置信息,有助于进行时间和空间上的数据分析。
- 向量数据格式:图像以向量格式存储,便于进行图像处理和机器学习任务。
3. 项目最近更新的功能
- 数据集的预处理:最新更新中,项目提供了简化的 ndjson 格式文件,移除了时间信息,并将图像数据定位和缩放到一个 256x256 的区域,便于快速下载和探索。
- 新增文件格式:更新中增加了自定义的二进制格式(bin),用于高效的压缩和加载。
- Numpy Bitmap 文件:所有简化后的图像都被渲染成 28x28 的灰度位图,并存储为 Numpy npy 格式,方便用户直接加载和使用。
- 示例代码和工具:更新中增加了 NodeJS 和 Python 的示例代码,用于读取和处理数据集,以及一系列命令行工具,帮助用户探索大型文件。
通过这些更新,QuickDraw Dataset 项目不仅为用户提供了更多样化的数据格式,还提供了更便捷的工具来帮助用户更好地利用这些数据。