QuickDraw数据集解读

QuickDraw数据集包含数百万张手绘草图,分为345个类别,提供原始和简化两种版本。原始数据包含时间戳和元数据,而简化版通过Ramer-Douglas-Peucker算法去除冗余点,便于处理。数据集可用于机器学习和图像识别研究。
摘要由CSDN通过智能技术生成

数据集下载地址:Quick, Draw! Doodle Recognition Challenge | Kaggleicon-default.png?t=N176https://www.kaggle.com/competitions/quickdraw-doodle-recognition/data

Github地址:googlecreativelab/quickdraw-dataset: Documentation on how to access and use the Quick, Draw! Dataset. (github.com)icon-default.png?t=N176https://github.com/googlecreativelab/quickdraw-dataset

QuickDraw数据集是345个类别的数百万张手绘草图的集合,这些绘图被捕获为带时间戳的矢量,并标记有元数据,包括要求玩家绘制的内容以及玩家所在的国家/地区。

QuickDraw给出了两个版本的数据。原始数据是从用户绘图中记录的确切输入,而简化版本则从矢量信息中删除了不必要的点。(例如,一条直线可能记录了 8 个点,但由于您只需要 2 个点来唯一标识一条线,因此可以删除 6 个点)。简化的文件要小得多,并且提供有效的相同信息。

原始数据

原始数据以按类别划分的 ndjson 文件的形式提供,格式如下:

类型说明
key_id64位无符号整型所有手绘草图的唯一标识符
word字符串提示玩家绘制的类别(类标签)
recognized布尔值这个类别是否被游戏识别
timestamp文件时间格式绘制草图的时间
countrycode字符串绘制玩家所在的地区(以ISO 3166-1 alpha-2两位字母表示的地区代码)
drawing字符串一个表示绘图信息的JSON数组

数据集的每一行代表一个手绘草图。例如(此表格的drawing数据为simplified,因为它太过庞大):

countrycodedrawingkey_idrecognizedtimestampword
US[[[0, 3, 12, 23, 40, 47, 53, 53, 49, 68, 88, 115, 125, 130], [36, 25, 14, 9, 8, 12, 24, 40, 56, 21, 2, 2, 9, 19]], [[158, 160, 175, 193, 202, 208, 210, 200, 209, 223, 232, 248, 254, 255], [32, 21, 6, 4, 7, 14, 28, 57, 34, 13, 8, 6, 13, 38]]]

49934

26342

80550

0

TRUE2017/3/25 2:43:15animal migration

绘图数组的格式如下:

[ 
  [  // 第一笔 
    [x0, x1, x2, x3, ...],
    [y0, y1, y2, y3, ...],
    [t0, t1, t2, t3, ...]
  ],
  [  // 第二笔
    [x0, x1, x2, x3, ...],
    [y0, y1, y2, y3, ...],
    [t0, t1, t2, t3, ...]
  ],
  ... // 后续笔画
]

对上面的例子,就是(原始版本):

[
  [
    [221, 221, 222, 225, 228, 233, 239, 246, 253, 261, 269, 278, 287, 296, 305, 314, 322, 328, 332, 335, 336, 336, 336, 336, 334, 331, 329, 327, 327, 329, 332, 339, 344, 350, 355, 362, 368, 376, 384, 391, 398, 404, 411, 417, 424, 431, 439, 447, 454, 462, 469, 475, 480, 485, 491, 496, 499, 501, 502], 
    [198, 191, 185, 180, 173, 166, 159, 152, 147, 142, 139, 137, 136, 136, 136, 140, 145, 153, 162, 172, 180, 188, 197, 205, 215, 224, 231, 236, 241, 235, 230, 219, 210, 199, 188, 176, 165, 155, 146, 139, 133, 128, 124, 122, 121, 120, 120, 120, 120, 122, 124, 127, 130, 134, 140, 146, 152, 157, 160], 
    [0, 68, 95, 108, 130, 142, 158, 175, 192, 208, 229, 243, 258, 275, 292, 309, 329, 346, 360, 376, 396, 409, 426, 443, 460, 479, 496, 510, 543, 825, 859, 892, 908, 925, 941, 958, 975, 991, 1008, 1025, 1041, 1058, 1075, 1091, 1108, 1127, 1144, 1159, 1178, 1194, 1212, 1225, 1242, 1258, 1291, 1327, 1361, 1412, 1633]
  ], 
  [
    [562, 560, 563, 567, 572, 578, 584, 592, 599, 607, 615, 622, 630, 638, 645, 652, 658, 663, 670, 672, 673, 673, 673, 671, 668, 664, 660, 657, 654, 652, 655, 659, 665, 671, 678, 684, 690, 696, 702, 708, 716, 722, 729, 736, 743, 750, 756, 761, 768, 769, 770, 771, 771, 771, 771, 771, 771, 771, 771], 
    [189, 183, 172, 165, 158, 151, 145, 139, 134, 130, 129, 128, 128, 128, 130, 133, 136, 140, 150, 157, 164, 172, 181, 190, 201, 211, 222, 231, 238, 243, 230, 219, 206, 193, 181, 170, 162, 154, 147, 143, 139, 136, 135, 134, 133, 133, 133, 136, 146, 152, 158, 164, 170, 177, 185, 192, 198, 203, 203], 
    [2439, 2492, 2526, 2541, 2558, 2574, 2591, 2608, 2625, 2642, 2658, 2674, 2692, 2708, 2724, 2742, 2758, 2781, 2808, 2825, 2842, 2858, 2874, 2892, 2908, 2925, 2945, 2962, 2980, 2996, 3192, 3208, 3225, 3243, 3261, 3279, 3295, 3312, 3329, 3346, 3366, 3379, 3396, 3412, 3425, 3442, 3461, 3474, 3508, 3525, 3544, 3562, 3579, 3596, 3611, 3628, 3646, 3678, 3910]
  ]
]

其中 x 和 y 是像素坐标,t 是自第一个点以来的时间(以毫秒为单位)。x 和 y 是实数值,而 t 是整数。由于显示和输入的设备不同,原始图形的边界框和采样点数可能大不相同。

简化版本数据

我们简化了矢量,删除了时序信息,并将数据定位并缩放到256x256区域。数据以 ndjson 格式导出,元数据与原始格式相同。简化过程是:

  1. 将绘图与左上角对齐,最小值为 0。
  2. 均匀缩放图形,最大值为 255。
  3. 以 1 像素间距对所有描边重新取样。
  4. 使用 epsilon 值为 2.0 的 Ramer-Douglas-Peucker 算法简化所有笔画。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

北京地铁1号线

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值