paper:https://arxiv.org/abs/1703.02529
code:https://github.com/stanford-futuredata/noscope
计算机视觉的进展,特别是近期深度神经网络的进展,使得在不断增长的视频数据中进行检索成为可能。但是,基于神经网络去做大规模视频检索,直接的问题就是计算量激增。比如现在最快的物体检测器能达到1~2.5x real time的效率(30~80fps),前提是买一个$4000的GPU。
我们来算一笔账,英伟达的K80 GPU,售价是$4000左右,处理视频的速度为50fps,那么跑1000h的视频(e.g., 25fps)就需要500h,P100 GPU更快一点,能达到80fps,也更贵$4600,跑1000h的视频需要312.5h。300~500h如果租云主机去处理的话($0.7~0.9/h)就是$300左右。
而现在图像和视频的传感器那么便宜,一个640*480的VGA CMOS传感器只要不到$0.65,这就造成了数据获取和数据处理开销的极大的不平衡,将近3个数量级的差异了。说明现在这个时代做视频相关的算法已经不是穷人可以玩的起的了。
所以斯坦福大学提出了NoScope,就是为了减小基于NN的video query的计算量而设计的系统ÿ