一.提出背景
在基于CNN的方法提升到一个很高的准确度之后,效率又成为人们所关注的话题,目前兼备准确度和效率的方法包括 SSD、YOLO v2,其检测效率通常能到达 30-100FPS,而这里面的代价就是上万块的显卡,这个代价是相当高的。当下视频获取设备(CCTV摄像头)成本通常是几百块,而采用上述分类算法,其成本可能是几千,这就是视频获取和视频分析之间的巨大鸿沟。
基于此,斯坦福大学提出了一种系统 NoScope,将视频分析的速度提升上千倍,我们接下来就看看这个牛逼吹的很大的系统到底是什么?
论文:NoScope: Optimizing Neural Network Queries over Video at Scale 【点击下载】
TensorFlow代码:【Github】
核心思想:由于视频目标是连续的,里面包含了大量时间局部性(temporal locality,即在不同的时间是相似的)和空间局部性(spatial locality,即在不同场景中看起来是相似的)。通过以下两点来进行优化: