在本系列中,我们将使用预训练的模型来创建一个iOS应用程序,该应用程序将在实时摄像头Feed中(而非静态图片中)检测多个人和物体。
在本文中,我们将从YOLO对象检测模型从开放神经网络交换格式(ONNX)转换为Core ML开始。
下载源350.1 KB
介绍
在上一篇文章系列中,我们创建了一个用于图像分类的iOS应用程序。但是,在许多情况下,仅给图片分配一个标签是不够的。例如,在安全系统中,您不仅想知道图片中是否有手提箱,还想知道手提箱在哪里,以及它是否被人包围或被遗弃。
对象检测模型可以帮助我们实现这一目标。在本系列中,我们将使用预训练的模型来创建一个iOS应用程序,该应用程序将在实时摄像头Feed中(而非静态图片中)检测多个人和物体。
本系列假定您熟悉Python,Conda和ONNX,并且具有使用Xcode开发iOS应用程序的经验。欢迎您下载该项目的源代码。我们将使用macOS 10.15 +,Xcode 11.7+和iOS 13+运行代码。
要创建coreml Conda环境,请使用下载的代码下载中的env-coreml.yml文件和以下命令:
隐藏 复制代码
$ conda env create -f env-coreml.yml
$ conda activate comer
$ jupyter notebook
在本文中,我们将从YOLO对象检测模型从开放式神经网络交换格式(ONNX)到Core ML的转换开始。尽管您可以从头开始训练自己的对象检测器,但这将是一项令人沮丧的练习。除非您拥有庞大的训练数据集和数千美元的GPU时间花费,否则使用预训练的YOLO对象检测模型将获得更加准确的结果。
使用YOLO进行物体检测
对象检测模型接受图像作为输入,并返回带有相应标签和边界框的检测对象列表。
上面的图像取自Open Images数据集。
在本系列中,我们将使用YOLO架构,更精确地说,该架构是在文章“ YOLO9000:更好,更快,更强”或YOLO v2中首次引入的。YOLO代表“您只看一次”,它反映了其基本思想:图像数据通过神经网络的单次传递即可产生检测结果。许多文章都在详细解释YOLO的工作方式。例如“ YOLO:实时对象检测”或“使用YOLO进行实时对象检测”。在这里,我们将重点介绍基础知识。
YOLO将输入图像划分为网格。对于每个网格单元,它将计算带有相应对象标签的多个框。为了使事情变得容易一些(对于模型,不是对使用它的人而言),它不计算绝对框坐标,而是计算一组用于缩放预定义“锚”框的因素。