Task:
学习使用YOLO算法进行对象识别。
-
输入图像为(608,608,3)
-
输入的图像先要通过一个CNN模型,返回一个(19,19,5,85)的数据。
-
在对最后两维降维之后,输出的维度变为了(19,19,425):
- 每个19x19的单元格拥有425个数字。
- 425 = 5 x 85,即每个单元格拥有5个锚框,每个锚框由5个基本信息+80个分类预测构成。
- 85 = 5 + 80,其中5个基本信息是 ( p c , p x , p y , p h , p w ) (pc,px,py,ph,pw) (pc,px,py,ph,pw),剩下80就是80个分类的预测。
-
然后我们会根据以下规则选择锚框:
- 预测分数阈值:丢弃分数低于阈值的分类的锚框。
- 非最大值抑制:计算交并比,并避免选择重叠框。
-
最后给出YOLO的最终输出。
还是只对YOLO算法流程有了一个大概的了解,代码还是不太。。。emm。
吴恩达深度学习深度学习课程连载笔记中文版:https://blog.csdn.net/u013733326/article/details/80341740
好的,04的最后一周出发。