Euphrates: Algorithm-SoC Co-Design for Low-Power Mobile Continuous Vision

最新推荐文章于 2020-12-05 13:34:43 发布

holmosaint

最新推荐文章于 2020-12-05 13:34:43 发布

阅读量430

点赞数

分类专栏： mobile DL CNN machine learning object detection motion estimation

本文链接：https://blog.csdn.net/holmosaint/article/details/82756987

版权

machine learning 同时被 3 个专栏收录

15 篇文章 0 订阅

订阅专栏

CNN

11 篇文章 0 订阅

订阅专栏

mobile DL

3 篇文章 0 订阅

订阅专栏

（这篇博客不设计文中的硬件部分）

这篇文章同样也讲述了如何在live video中应用motion estimation的算法，通过应用上下帧之间的相似信息来加速detection并且维持较高的accuracy。

文中列了一张不同的object detection算法的效率和准确率的比较的图。

在通常的live video的处理当中，大致的一个模块分布如下图所示：

其中的imge sensing部件就是用来就收从摄像头传来的图像流；IPS模块用来对得到的原始的摄像头图像做一些处理；后端的部分就需要从加工过的图片中提取出有用的信息。

在这篇文章中，ISP处理图像得到的motion的信息不像其他的一些算法一样使用过之后就简单的丢弃，Eupharates会保存下来进一步提升整个motion estimation的准确性。

同样的这篇文章使用的motion estimation的算法也是block matching。将整张image分成若干个 $L\times{L}$ 个mrcroblocks，然后衡量匹配差距的标准被定义为：Sum of Absolute Differences(SAD)。对于每个MB，搜索的范围就是水平和垂直方向上的 2d+1 的范围，如下图所示。

这个算法的时间复杂度很好计算，每个 $L\times{L}$ 的MB需要 L^2(2d+1)^2 次计算；但是文中指出了另外一个更快的近似算法叫做TSS（Three Step Search），对于每个MB只需要做 $L^2(1+8\log_2(d+1))$ 的复杂度。

最终BM算法会为每个MB生成一个motion vector，代表MB之间的位移和其与前一帧之间最接近的block。

算法将video的帧分为两类：Inference frame和Extracpolation frame。前者经过完整的CNN网络，后者则是通过motion estimation来估计物体的位置。

在一个视野当中所有pixel的唯一的平均值在一定程度上能够代表这个感受野当中物体的全局位移，所以算法的第一步就是对于一个给定的POI，计算像素层的平均位移（式1），正如上文所提到的，这些位移都是MB-based的位移计算而来的。平均的位移很容易受到物体变形（肢体活动）的影响，所以需要增加除躁的步骤。

对于每个MV，计算其置信值，这个置信值的是高度依赖于SAD的，原因非常直观啦。式2给出了置信值的计算方式，限制在了[0,1]的范围内，最后对于每个ROI的置信值，只需要计算其所包含的MV的置信值的均值即可。

最终可以对置信度高的位移施加更大的权重，如式3所示，我们发现是应用到了之前位移的效应。