用PaddlePaddle 实现目标检测任务——Paddle Fluid v1.1深度测评

最新推荐文章于 2024-07-20 22:35:57 发布

PaddleWeekly

最新推荐文章于 2024-07-20 22:35:57 发布

阅读量3.3k

点赞数 1

分类专栏：人工智能 PaddlePaddle

本文链接：https://blog.csdn.net/paddleweekly/article/details/84977275

版权

本文详细测评了百度的PaddlePaddle Fluid v1.1版本，通过实现SSD目标检测任务来探讨其性能和易用性。内容涵盖PaddlePaddle的安装、计算描述方式、模型库介绍，以及SSD模型的训练、评估和预测。实验结果显示，PaddlePaddle在训练速度、性能和资源占用方面表现出色，提供丰富的模型库和详细的中文教程，适合中文开发者使用。

摘要由CSDN通过智能技术生成

1.前言

11月1日，百度发布了Paddle Fluid的1.1版本，作为国内首个深度学习框架，PaddlePaddle对中文社区非常友好，有完善的中文社区、项目为导向的中文教程，可以让更多中文使用者更方便地进行深度学习、机器学习相关的研究和实践。我本人也非常希望PaddlePaddle能够不断发展壮大，毕竟这是国内公司为开源社区做出的一项非常有意义的贡献。为了一探Paddle Fluid 1.1版本究竟做了哪些方面的更新，笔者第一时间安装了新发布的版本，用一个基于SSD的目标检测任务来测试一下新版PaddlePaddle的表现。

2.什么是目标检测

图像识别对于做视觉的同学来说应该是一个非常熟悉的任务了，最初深度学习就是是应用于图像识别任务的，举例来说，给计算机一张汽车图片，让它判断这图片里有没有汽车。

对于背景干净的图片来说，这样做很有意义也比较容易。但是如果是一张包含丰富元素的图片，不仅识别难度大大提高，仅仅判断出里面有没有图片的意义也不大了，我们需要找到到底在读片的什么位置出现了一辆汽车，这就提出了一个新的任务和需求——目标检测。

我们的任务就是给定一张图像或是一个视频帧，让计算机找出其中所有目标的位置，并给出每个目标的具体类别。对于人类来说，目标检测是一个非常简单的任务。然而，计算机能够“看到”的是图像被编码之后的数字，很难解图像或是视频帧中出现了人或是物体这样的高层语义概念，也就更加难以定位目标出现在图像中哪个区域。

与此同时，由于目标会出现在图像或是视频帧中的任何位置，目标的形态千变万化，图像或是视频帧的背景千差万别，诸多因素都使得目标检测对计算机来说是一个具有挑战性的问题。目前主流的方法是FasterRCNN、YOLO和SSD，本文使用SSD进行实验。

3.PaddlePaddle简介

第一次听到PaddlePaddle是在CCF前线研讨会上，当时几个人聊起来关于机器学习算法平台的事情，有一位小伙伴提起了这个名字，所以一段时间以来我一直认为这是一个机器学习算法平台。直到16年百度开源了PaddlePaddle我才知道，原来这是一个可以跟TensorFlow媲美的深度学习框架，主打“易用、高效、灵活、可扩展”。所以，简单来说，PaddlePaddle就是百度自研的一套深度学习框架（看过发布会后了解到，百度为此建立了一套覆盖面非常广的生态，包括金融、推荐、决策等，但笔者主要是对PaddlePaddle的核心框架进行测评，不在此浪费过多笔墨了）。

3.1如何安装

笔者的工作站是Ubuntu 16.04系统，PaddlePaddle在CentOS和Ubuntu都支持pip安装和docker安装，GPU版本在Linux下也可以完美适配。下面来看一下具体的安装步骤。

首先我们使用cat /proc/cpuinfo | grep avx2来查看我们的Ubuntu系统是否支持avx2指令集，如果发现系统返回了如下一系列信息，就说明系统是支持avx2指令集的，可以放心进行后续安装。如果不支持也没关系，在官网上可以直接下载no_avx的whl包进行安装。

接下来使用pip安装最新的Fluid v1.1版本的PaddlePaddle(GPU)，在安装前注意，需要在机器上安装python3.5-dev才可以用pip安装PaddlePaddle。下载速度会比较慢，需要20分钟左右的下载时间。

安装完成后，在python里import paddle测试一下，如果成功导入则说明安装成功！

在更新的Paddle Fluid v1.1版本中还特意优化了对MacOS的支持，可以直接通过pip安装，也可以用源码编译安装。具体细节可参考：http://www.paddlepaddle.org/documentation/docs/zh/1.1/beginners_guide/install/Start.html

3.2PaddlePaddle的计算描述方式

框架的计算描述方式是深度学习项目开发者非常关注的一个问题。计算的描述方式经历了从Caffe1.0时代的一组连续执行的layers到TensorFlow的变量和操作构成的计算图再到PaddlePaddle Fluid[1]提出不再有模型的概念一系列的演变。那么PaddlePaddle现在是怎么描述计算的呢？

PaddlePaddle使用Program来描述模型和优化过程，可以把它简单理解为数据流的控制过程。Program由Block、Operator和Variable构成，variable和operator被组织成为多个可以嵌套的block。具体的，如果要实现一个神经网络，我们只需要通过添加必要的variable、operator来定义网络的前向计算，而反向计算、内存管理、block创建都由框架来完成。下面展示一下如何在PaddlePaddle中定义program：

以一个简单的线性回归为例，我们这样定义前向计算逻辑：

#定义输入数据类型

x=fluid.layers.data(name="x",shape=[1],dtype='float32')

#搭建全连接网络

y_predict=fluid.layers.fc(input=x,size=1,act=None)

定义好计算逻辑后，与TensorFlow一样，下一步就需要定义损失函数，feed数据，开始训练，feed数据也是在执行运算的时候进行，我们先定义一下数据，这里train_data 就是我们的输入数据，y_true是label：

train_data=numpy.array([[1.0],[2.0],[3.0],[4.0]]).astype('float32')

y_true = numpy.array([[2.0],[4.0],[6.0],[8.0]]).astype('float32')

添加均方误差损失函数(MSE)，框架会自动完成反向计算：

cost = fluid.layers.square_error_cost(input=y_predict,label=y)

avg_cost = fluid.layers.mean(cost)

执行我们定义的上述Program：

cpu = fluid.core.CPUPlace()

exe = fluid.Executor(cpu)

exe.run(fluid.default_startup_program())

#开始训练

outs = exe.run(

    feed={
   'x':train_data,'y':y_true},

    fetch_list=[y_predict.name,avg_cost.name])

#观察结果

print outs

输出结果：

[array([[0.9010564],

    [1.8021128],

    [2.7031693],

    [3.6042256]], dtype=float32), array([9.057577], dtype=float32)]

这样就用PaddlePaddle实现了简单的计算流程，个人感觉使用起来跟TensorFlow的相似度较高，习惯在TensorFlow上跑模型的小伙伴应该很容易适应PaddlePaddle的这一套生态。

关于PaddlePaddle计算描述的详情可以参考Fluid编程指南：http://www.paddlepaddle.org/documentation/docs/zh/1.1/beginners_guide/programming_guide/programming_guide.html

3.3PaddlePaddle的模型库简介

PaddlePaddle的核心框架内置了非常多的经典模型和网络，涵盖了几乎所有主流的机器学习/深度学习任务，包括图像、语音、自然语言处理、推荐等诸多方面。因为本文是做目标检测，所以主要调研了一下图像方面的模型库，在此大致介绍一下。

3.3.1分类

分类任务中的模型库是最全面的，AlexNet、VGG、GoogleNet、ResNet、Inception、MobileNet、Dual Path Network以及SE-ResNeXt，2012年以来的经典图像识别网络都包含其中，每个网络模型是一个独立的py文件，里面是这个网络模型的类，类里面公用的方法是net()，在调用时初始化对应的类之后调用.net()方法，就可以得到对应网络的Program描述，之后只需要给网络feed数据、定义损失函数、优化方法等就可以轻松使用了。分类模型作为图像任务的基础任务，在目标检测、语义分割等任务中都会重复利用这些模型，所以这样一个模型库可以为大大简化后续任务的开发工作。这部分的模型库里的写法比较统一，只要了解网络结构，用.net()方法调用就可以，这里就不一一介绍了，具体可以参考：https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/image_classification/models。

3.3.2目标检测

SSD

Single Shot MultiBox Detector (SSD) 是一种单阶段的目标检测器。与两阶段的检测方法不同，单阶段目标检测并不进行区域推荐，而是直接从特征图回归出目标的边界框和分类概率。SSD 运用了这种单阶段检测的思想，并且对其进行改进：在不同尺度的特征图上检测对应尺度的目标。如下图所示，SSD 在六个尺度的特征图上进行了不同层级的预测。每个层级由两个3x3卷积分别对目标类别和边界框偏移进行回归。因此对于每个类别，SSD 的六个层级一共会产生38x38x4 + 19x19x6 + 10x10x6 + 5x5x6 + 3x3x4 + 1x1x4 = 8732 个检测结果。

SSD 目标检测模型

SSD 可以方便地插入到任何一种标准卷积网络中，比如VGG、ResNet 或者MobileNet，这些网络被称作检测器的基网络。PaddlePaddle里的SSD使用Google的MobileNet作为基网络。

目标检测模型库不同于分类模型库，PaddlePaddle是以一个工程的形式提供SSD的模型库。工程里面包含如下文件：

其中，train.py、reader.py、mobilenet_ssd.py是与网络训练相关的文件，包括数据读取、网络结构、训练参数等过程的定义都在这3个文件中；eval.py、eval_coco_map.py是网络预测评估相关文件；infer.py是可视化预测结果相关文件。Data文件夹用于存储数据集，使用时可以把训练集、测试集、验证集放在data目录下，reader会在data目录下寻找图片数据加载；pretrained目录存放预训练模型，如果不想从头训练一个SSD，可以把预训练好的模型放在这个目录下，方便进行迁移学习。