![f9691a11cc02c267d9d2ac5fbc7aa25d.png](https://i-blog.csdnimg.cn/blog_migrate/ccbe1551d533a5384a34c62170a29031.jpeg)
作为深度学习小白一枚,从一开始摸索如何使用深度学习框架,怎么让脚本跑起来,到现在开始逐步读懂论文,看懂模型的网络结构,按照飞桨官方文档进行各种模型训练和部署,整个过程遇到了无数问题。非常感谢飞桨开源社区的大力支持,并热情答复我遇到的各种问题,使得我可以快速上手。特整理本篇学习笔记,以此回馈网友们的无私付出。大家都共享一点点,一起为深度学习的推进添砖加瓦(哈哈,非常正能量,有木有!)
这篇文章详细记录了如何使用百度深度学习平台——飞桨进行SSD目标检测模型的训练、以及如何将模型部署到服务器和移动端。文末给出了笔者认为非常有用的资料链接。
本文的代码基于百度AI Studio官方示例代码,并能够在飞桨 1.7.1上跑通,Python版本是3.7。
SSD模型介绍
![e9f92b9d2369ed4f10bba239c778bd67.png](https://i-blog.csdnimg.cn/blog_migrate/4f1effcc65ac0c0bcfd8c3d48e4e3fcf.png)
如果你对经典的CNN模型比较熟悉的话,那么SSD也并不难理解。SSD大体上来说是将图片分为6种不同大小的网格,找到目标中心的落点,确定物体的位置。在分成不同网格之后,会在此之上取到不同数目的先验框,对先验框进行回归、分类预测。先验框的数目足够多,几乎能够涵盖整个图片,因此我们可以找到包含物体的很多个先验框,最后进行非极大抑制就能得到正确结果。
![dde142f519dfce7707ea411a36537b85.png](https://i-blog.csdnimg.cn/blog_migrate/984fc01f5a398b68ccfb23779d31632e.jpeg)
b图就是我们以每个网格为中心,取到的先验框的示例。c图的回归预测找到了目标的位置信息,分类预测确定了物体的类别。a图代表了最终的结果。
上面的两个图片摘自论文SSD: Single Shot MultiBox Detector,在论文中SSD是插入到VGG-16网络中的。
![2f0c685a18251756b526ed2a3437ff37.png](https://i-blog.csdnimg.cn/blog_migrate/3bac6677f7532157ef8b2c245cd7915f.jpeg)
通过一个表格我们能够知道我们从不同层中得到的先验框尺寸和数目:
![f6d504c53d543cbef8a1256cac516d5c.png](https://i-blog.csdnimg.cn/blog_migrate/aa12b8f24cf4f57f7d55dadd268cd54a.jpeg)
总共我们会获得8732个先验框。
MobileNet 与 SSD结合
前面说到我们可以很方便地将SSD插入到不同网络,那么考虑到我们的应用场景,我们可以使用诸如MobileNet网络来减少计算量。
MobileNet将卷积分为Depthwise和Pointwise两部分,减少了计算量,同时不会损失过多的精度。也因此在移动设备和嵌入式设备上面有很好的应用前景。更多关于MobileNet的理论信息大家可以在网上找到,这里不做过多讲述。
百度AI Studio上官方开源了基于SSD的目标检测模型的代码,代码非常好读