COCO2017 数据集分类统计

最近用到coco2017数据集做目标检测,顺便整理一下数据集。

coco数据集用专门的python api 方便我们直接来读取图片数据,详细的可以去看 https://github.com/cocodataset/cocoapi

我们这里主要是统计数据集的类别,这样就清楚自己的训练数据是否足够,不同的类别分布是否均衡等问题。

 

我们使用以下代码来统计类别、图片数、标注框数:

from pycocotools.coco import COCO

dataDir='./COCO'
dataType='val2017'
#dataType='train2017'
annFile='{}/annotations/instances_{}.json'.format(dataDir, dataType)

# initialize COCO api for instance annotations
coco=COCO(annFile)

# display COCO categories and supercategories
cats = coco.loadCats(coco.getCatIds())
cat_nms=[cat['name'] for cat in cats]
print('number of categories: ', len(cat_nms))
print('COCO categories: \n', cat_nms)

# 统计各类的图片数量和标注框数量
for cat_name in cat_nms:
    catId = coco.getCatIds(catNms=cat_name)     # 1~90
    imgId = coco.getImgIds(catIds=catId)        # 图片的id  
    annId = coco.getAnnIds(catIds=catId)        # 标注框的id

    print("{:<15} {:<6d}     {:<10d}".format(cat_name, len(imgId), len(annId)))

 

测试集输出:

类别图片数量标注框数量
person269311004
bicycle149316
car5351932
motorcycle159371
airplane97143
bus189285
train157190
truck250415
boat121430
traffic light191637
fire hydrant86101
stop sign6975
parking meter3760
bench235413
bird125440
cat184202
dog177218
horse128273
sheep65361
cow87380
elephant89255
bear4971
zebra85268
giraffe101232
backpack228371
umbrella174413
handbag292540
tie145254
suitcase105303
frisbee84115
skis120241
snowboard4969
sports ball169263
kite91336
baseball bat97146
baseball glove100148
skateboard127179
surfboard149269
tennis racket167225
bottle3791025
wine glass110343
cup390899
fork155215
knife181326
spoon153253
bowl314626
banana103379
apple76239
sandwich98177
orange85287
broccoli71316
carrot32303
hot dog0345
pizza153285
donut62338
cake124316
chair5801791
couch195261
potted plant172343
bed149163
dining table501697
toilet149179
tv207288
laptop183231
mouse88106
remote145283
keyboard106153
cell phone214262
microwave5455
oven115143
toaster89
sink187225
refrigerator101126
book2301161
clock204267
vase137277
scissors2836
teddy bear0262
hair drier911
toothbrush3457

 

训练集输出: 

类别图片数量标注框数量
person64115262465
bicycle32527113
car1225143867
motorcycle35028725
airplane29865135
bus39526069
train35884571
truck61279973
boat302510759
traffic light413912884
fire hydrant17111865
stop sign17341983
parking meter7051285
bench55709838
bird323710806
cat41144768
dog43855508
horse29416587
sheep15299509
cow19688147
elephant21435513
bear9601294
zebra19165303
giraffe25465131
backpack55288720
umbrella396811431
handbag684112354
tie38106496
suitcase24026192
frisbee21842682
skis30826646
snowboard16542685
sports ball42626347
kite22619076
baseball bat25063276
baseball glove26293747
skateboard34765543
surfboard34866126
tennis racket33944812
bottle850124342
wine glass25337913
cup918920650
fork35555479
knife43267770
spoon35296165
bowl711114358
banana22439458
apple15865851
sandwich23654373
orange16996399
broccoli19397308
carrot2451719
hot dog118426
pizza31665821
donut15237179
cake29256353
chair1277438491
couch44235779
potted plant44528652
bed36824192
dining table1183715714
toilet33534157
tv45615805
laptop35244970
mouse18762262
remote30765703
keyboard21152855
cell phone48036434
microwave15471673
oven28773334
toaster217225
sink46785610
refrigerator23602637
book533224715
clock46596334
vase35936613
scissors9471481
teddy bear166087
hair drier189198
toothbrush10071954

 

 

 

 

  • 7
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 8
    评论
### 回答1: Coco2017数据集是一个包含有大量图像和标注数据的开放数据集,它是微软公司在COCo项目基础上发展而来。这个数据集主要包含了各种场景下的图片,包括人物、动物、物品等各种目标。同时,它还包含了很多不同的属性,例如场景描述、图像的模糊度、遮挡程度等信息。这些数据为计算机视觉领域的图像识别、目标检测及语义分割等任务提供了有力的支持。 Coco2017数据集是目前在图像识别领域中使用最广泛的开放数据集之一,到目前为止,该数据集已经发布了三个版本。在该数据集上大量的研究工作被进行了,其结果被广泛应用于物体识别、物体定位、物体分割、人体姿态估计等领域。Coco2017数据集的贡献在于提供了大规模的真实世界的图像和标注数据,以便研究人员可以基于这些数据提出更为有效的图像处理算法。 总之,Coco2017数据集的重要性在于其对计算机视觉领域研究的巨大推动作用。该数据集的大规模、真实世界的图像和标注数据为视觉任务的研究和开发提供了重要的基础和平台。 ### 回答2: COCO 2017数据集是一款非常流行的计算机视觉数据集,包含超过33万张图片和超过20万个注释,是图片分类目标检测、语义分割等任务的重要数据来源。COCO数据集的场景比较丰富,包括室内外、日常生活、自然风景、动物和人类等,同时每张图片都带有多个目标的标注,使得该数据集成为目标检测和语义分割任务的首选。同时,该数据集还提供了一种新的评估指标,称为平均精度(AP),以更准确地评估模型的性能。 COCO 2017数据集的共享使得研究者和工业界人员能够在相关领域中开展研究和开发。数据集可以用于研究图像识别、图像分类、图像分割等相关算法,同时也有利于推进自动驾驶、人机交互等领域的发展,COCO数据集的开放是促进机器学习领域发展的重要推动力量。 COCO数据集只是计算机视觉领域中的一个例子,但它展示了对数据透明性的信仰,使研究社区受益,并促使更广泛的进步。对于任何领域,数据透明性都是不可或缺的,它能够为研究者们和整个社区带来真正的好处。 ### 回答3: COCO2017是一个广泛被使用的图像和视频数据集,其包含大约33亿个带注释的图像,72万个视频以及超过20万个对象类别。这个数据集包含的图像来自各种现实场景,并涉及不同的对象、动作和背景,使得它成为计算机视觉和深度学习领域中一个非常重要的资源。 COCO2017数据集的图像来源于各种来源,包括自然场景,人工制品和街景。它们中的一些有注释和标签,例如对象类别、对象位置、姿势、关键点、边界框等。这些注释和标签数据是计算机视觉和深度学习算法的训练和评估所必需的。 这个数据集对于各种计算机视觉和深度学习任务都非常有用。例如,对于对象识别、物体检测、图像分割、关键点检测、姿势估计和视觉问答等任务,COCO2017数据集都是一个很好的选择。因此,这个数据集被广泛用于各种预训练模型的训练和评估,如目标检测模型、分割模型和各种图像生成模型。 尽管COCO2017数据集非常全面和丰富,但是它也存在一些缺点。首先,由于它是一个大规模的数据集,训练和评估需要很大的存储和计算资源。其次,它的标签和注释可能存在一些错误和不准确之处,这对于一些精细的任务可能带来一些影响。最后,由于它的数据集非常广泛,因此在实际应用中可能需要进行一些过滤和筛选才能获得更好的性能。 总之,COCO2017数据集是一个非常重要的资源,被广泛用于计算机视觉和深度学习领域的研究和实际应用。虽然它存在一些缺点,但是由于其所提供的广泛的场景和注释信息,它在各种任务中都是一个非常有价值的选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liguiyuan112

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值