从coco2017数据集中提取少量图片,来充当整个coco2017数据集,方便debug。

时间:2023.5.28

1. 背景

coco2017数据集太大,调试代码的时候,读入完整数据集太慢,外加服务器的cpu和内存特别古老,容易死机。所以,从coco2017数据集中提取少量图片,来充当整个coco2017数据集,方便debug。代码全部debug完毕后,再用完整数据集跑模型。
当然,电脑硬件设备好的话,就不会有这些问题了。

2. 目的

从coco2017数据集中提取少量图片,来充当整个coco2017数据集,方便debug。

3.代码

import json

json_file='/root/instances_train2017.json'    # train or val 集标签路径
# json_file='/root/instances_val2017.json'    # train or val 集标签路径
num = 2 # 提取2张图片

data=json.load(open(json_file,'r'))
data_2={}
data_2['info']=data['info']
data_2['licenses']=data['licenses']
data_2['images'] = [data['images'][i] for i in range(num)]
data_2['categories']=data['categories']

annotation=[]
imgID = []  # 通过imgID,找到要提取的所有对象
for i in range(num):
    imgID.append(data_2['images'][i]['id'])
for ann in data['annotations']:
    if ann['image_id'] in imgID:
        annotation.append(ann)
data_2['annotations']=annotation
json.dump(data_2,open(f'/root/only_two_coco2017/instances_train2017.json','w'),indent=4) # indent=4 更加美观显示
# json.dump(data_2,open(f'/root/only_two_coco2017/instances_val2017.json','w'),indent=4) # indent=4 更加美观显示

4.coco2017数据集文件路径结构

|coco2017
	|annotations
		|instances_train2017.json
		|instances_val2017.json
	|train2017
		|000000391895.jpg
		|************.jpg
	|val2017
		|000000397133.jpg
		|************.jpg
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
### 回答1: Coco2017数据集是一个包含有大量图像和标注数据的开放数据集,它是微软公司在COCo项目基础上发展而来。这个数据集主要包含了各种场景下的图片,包括人物、动物、物品等各种目标。同时,它还包含了很多不同的属性,例如场景描述、图像的模糊度、遮挡程度等信息。这些数据为计算机视觉领域的图像识别、目标检测及语义分割等任务提供了有力的支持。 Coco2017数据集是目前在图像识别领域使用最广泛的开放数据集之一,到目前为止,该数据集已经发布了三个版本。在该数据集上大量的研究工作被进行了,其结果被广泛应用于物体识别、物体定位、物体分割、人体姿态估计等领域。Coco2017数据集的贡献在于提供了大规模的真实世界的图像和标注数据,以便研究人员可以基于这些数据提出更为有效的图像处理算法。 总之,Coco2017数据集的重要性在于其对计算机视觉领域研究的巨大推动作用。该数据集的大规模、真实世界的图像和标注数据为视觉任务的研究和开发提供了重要的基础和平台。 ### 回答2: COCO 2017数据集是一款非常流行的计算机视觉数据集,包含超过33万张图片和超过20万个注释,是图片分类、目标检测、语义分割等任务的重要数据来源。COCO数据集的场景比较丰富,包括室内外、日常生活、自然风景、动物和人类等,同时每张图片都带有多个目标的标注,使得该数据集成为目标检测和语义分割任务的首选。同时,该数据集还提供了一种新的评估指标,称为平均精度(AP),以更准确地评估模型的性能。 COCO 2017数据集的共享使得研究者和工业界人员能够在相关领域开展研究和开发。数据集可以用于研究图像识别、图像分类、图像分割等相关算法,同时也有利于推进自动驾驶、人机交互等领域的发展,COCO数据集的开放是促进机器学习领域发展的重要推动力量。 COCO数据集只是计算机视觉领域的一个例子,但它展示了对数据透明性的信仰,使研究社区受益,并促使更广泛的进步。对于任何领域,数据透明性都是不可或缺的,它能够为研究者们和整个社区带来真正的好处。 ### 回答3: COCO2017是一个广泛被使用的图像和视频数据集,其包含大约33亿个带注释的图像,72万个视频以及超过20万个对象类别。这个数据集包含的图像来自各种现实场景,并涉及不同的对象、动作和背景,使得它成为计算机视觉和深度学习领域一个非常重要的资源。 COCO2017数据集的图像来源于各种来源,包括自然场景,人工制品和街景。它们的一些有注释和标签,例如对象类别、对象位置、姿势、关键点、边界框等。这些注释和标签数据是计算机视觉和深度学习算法的训练和评估所必需的。 这个数据集对于各种计算机视觉和深度学习任务都非常有用。例如,对于对象识别、物体检测、图像分割、关键点检测、姿势估计和视觉问答等任务,COCO2017数据集都是一个很好的选择。因此,这个数据集被广泛用于各种预训练模型的训练和评估,如目标检测模型、分割模型和各种图像生成模型。 尽管COCO2017数据集非常全面和丰富,但是它也存在一些缺点。首先,由于它是一个大规模的数据集,训练和评估需要很大的存储和计算资源。其次,它的标签和注释可能存在一些错误和不准确之处,这对于一些精细的任务可能带来一些影响。最后,由于它的数据集非常广泛,因此在实际应用可能需要进行一些过滤和筛选才能获得更好的性能。 总之,COCO2017数据集是一个非常重要的资源,被广泛用于计算机视觉和深度学习领域的研究和实际应用。虽然它存在一些缺点,但是由于其所提供的广泛的场景和注释信息,它在各种任务都是一个非常有价值的选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值