1 背景介绍
mm-detection在功能上基本和Detectron一致,都是detection codebase((视觉)检测代码库),而Detectron是世界上首个,所以先介绍下Detectron的诞生背景。
1.1 Detectron 是什么?
2018年初,Facebook AI研究院(FAIR)公开了一个目标(视觉)检测平台,名叫Detectron。它是一个软件系统,由Python语言和Caffe2深度学习框架构建而成。
近几年深度学习技术的发展极为迅速,经典的深度学习算法越来越多,而算法只是一种思想或伪代码,让算法能够发挥作用,必须将其用软件代码实现。而使用深度学习框架独自去复现这些现代神经网络算法是一件门槛极高(需要精通深度学习框架,需要从只言片语的算法中自己领悟并填补细节)且极为费时的事情。很多时候,人们为了用深度学习技术解决某个问题,需要去测试并比对各种深度学习算法在该问题上的处理效果。
一般情况下,主流的深度学习算法网上有很多复现的版本,但每个版本适用不同类型的深度学习框架、适用不同版本的深度学习框架(深度学习框架就像深度学习技术一样,日新月异,各软件、各库、各硬件升级带来的兼容性问题催生了各种类型的新事物出现,而Detectron也算其中之一)、适用不同的编程语言、适用不同的操作系统等。不说参差不齐的代码质量和性能影响训练的时间和检测的精度,在寻找和测试这些代码能否运行方面就需要花费很长无意义的时间。
1.2 为什么用detectron?
鉴于上述问题,Detectron的诞生目标是为物体检测的研究提供高质量,高性能的代码库。
优点如下:
(1)丰富、快速:集成各主流算法的实现和模型预训练,并可直接调用,为新颖的想法提供快速的实现和评估。
(2)可训练、操作简单:可用你自己的数据集重新训练模型,且训练流程相比一般的深度学习框架,操作更简单。
不足之处:
(1)Linux平台:由于包含众多算法的实现,而深度学习业界一般使用Linux系统,所以该软件平台也只能在Linux系统下进行使用。
2 mm-detection介绍
2.1 mm-detection基本情况
定义:一个开源库(所以没有人机交互界面),提供已公开发表的多种视觉检测核心模块,通过这些模块的组合,可以迅速搭建出各种著名的检测框架(即深度学习模型)。
创建者:香港中文大学-商汤联合实验