Datawhale是一个学习互助的开源组织,第20期组队学习内容包括:
- SQL编程语言
- Go编程语言
- 编程实践(Pandas)
- 编程实践(数据可视化)
- 计算机视觉(目标检测)
抱着学习的心态,这次我参与了计算机视觉(目标检测)的学习打卡活动。
第一次打卡的内容包括:
- 目标检测的基本概念、目标框定义方式、交并比(IOU)的计算
- VOC数据集详细介绍
- VOC数据集dataloader构建
dataloader的构建涉及代码实现较多,笔者阅读了代码及注释,只是有了大概理解,下面就学习的内容做了一个简单笔记。
目标框的定义方式
目标检测中,目标的标签需要包含两类信息:
- 目标类别
- 目标的位置信息(也就是目标的外接矩形bounding box, 简称为bbox)
用来表达bbox的格式通常有两种,(x1, y1, x2, y2) 和 (c_x, c_y, w, h) ,如图:
两种格式互相转换:
def xy_to_cxcy(xy):
"""
Convert bounding boxes from boundary coordinates (x_min, y_min,