INFOCOM 2023:Omnisense论文阅读

OmniSense: Towards Edge-Assisted Online Analytics for 360-Degree Videos

Abstract

OmniSense是第一个特别关注实际系统效率的边缘辅助的低延迟和高精度的在线360°视频分析框架,解决了计算和网络资源的挑战。主要实现了以下几方面内容:

  • 通过轻量级的球形感兴趣区域(SRoI)预测方法,修剪360°视频帧的冗余信息
  • 结合视频内容和网络动态性智能选择视觉模型分析SRoI,优化资源利用率
  • 由现有的视觉模型提供支持,不需要设计和重新训练现有模型

Introduction

360°视频是球面图像,投影到2D平面实现存储和传输。

现有的模型大多针对2D透视图像(perspective images,PIs),应用到360°图像时会造成几何扭曲和边界不连续,影响精度

如右上图所示,上下两极的图像有扭曲,其中一辆汽车不连续

一种解决方案是将整个球形内容投影到多个无失真的PIs中,但是要在不影响准确性的情况下减少分析所有PI的延迟是一个问题

专门为360°图像设计的分析算法十分消耗带宽

本文的贡献:

  • 分析从现实世界收集的数据集,确定内容特征和资源节省的机会
  • 边缘辅助框架,动态自适应分配不同的视觉模型去分析不同的SRoI对应的PI,在计算、网络、延迟的限制下提高精度
  • 轻量级的SRoI预测算法,针对特定内容的模型性能评估模型,从而解决延迟受限的模型分配问题
  • 在商用设备上实施和部署OmniSense

Background and related work

1.Regular视频的在线分析

几种优化方法:

  • 由于感兴趣的事件是稀疏的,因此采用帧过滤
  • 前后端拆分模型,最小化中间数据传输
  • 基于RoI信息修剪冗余信息

2.沉浸式视频分析

全景到2D:

  • 等距柱状投影ERP(equirectangular projection)和Cubemap projection立方体贴图投影
  • 几何扭曲和边界不连续

透视投影:

[1]将球形细分为二十面体相切的多个平面图像网格,并将现有DNN应用于这些切线图像

  • 需要大量的PIs,资源密集且耗时

[2]多重投影,将球体划分为四个宽重叠的子窗口,并通过立体投影将每个子窗口映射到平面

  • 集中于提升准确率,不强调计算和网络资源的消耗

将投影失真的不变性显式编码到CNN中:

[3]学习一个球面卷积网络,在极低区域增加卷积核的大小,以近似ERP图像中的失真

[4]调整卷积滤波器的采样位置,有效扭转卷曲,将滤波器包裹在球体周围

  • 上述两种方法需要重新设计卷积滤波器并重新训练

Authors:为沉浸式视频提供即插即用的底层分析框架,即应用现有模型而不进行修改

[1] M. Eder, M. Shvets, J. Lim, and J.-M. Frahm, “Tangent images for mitigating spherical distortion,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR’20), 2020, pp. 12 426–12 434.
[2] W. Yang, Y. Qian, J.-K. Kämäräinen, F. Cricri, and L. Fan, “Object detection in equirectangular panorama,” in Proceedings of the 24th International Conference on Pattern Recognition, 2018, pp. 2190–2195.
[3] Y.-C. Sun and K. Grauman, “Learning spherical convolution for fast features from 360◦ imagery,” in Proceedings of the 31st Conference on Neural Information Processing Systems (NeurIPS’17), 2017, pp. 529539.
[4] B. Coors, A. P. Condurache, and A. Geiger, “Spherenet: Learning spherical representations for detection and classification in omnidirectional images,” in Proceedings of the European Conference on Computer Vision (ECCV’18), 2018, pp. 518–533

Motivation study

1.Motivation study setup

Video dataset and models:

  • 数据集以及yolo模型的不同版本

沉浸式目标检测标准:

  • 2D:位置(bounding boxes,BBs)和类别
  • 球形标准(球形SphBB和球形SphIoU)

真实情况的沉浸式物体检测结果:

  • 自己开发注释管道以离线生成近似的真实结果
  • 对物体以60°×60°球形区域投射到表面,得到一个检测结果,将结果反投射到球体获得SphBB
  • 对于靠近相机,跨越大于60°的宽FoV罕见物体,手动注释

2.Observations and implications

360°视频中的大多数物体仅占据画面的一小部分:

  • 表明需要更高的分辨率输入帧才能检测微小视觉模型
  • 表明360°视频分析要求与现有模型能力的差距,方法:采用多个模型“分而治之”分析球形内容

同一类物体的面积相差几个数量级:

  • 证明不能从可见大小来区分对象类别
  • 对象大小和对象类别都是表征视频内容和检测模型能力的重要参考因素

360°帧中物体的空间分布是有差异的:

  • 物体空间分布差异,有些区域中大量像素对物体检测没有有用信息
  • 修剪像素以节省资源,不同能力的模型处理不同的球形区域

360°视频的内容是高度动态的:

  • 即使相同的区域,最合适的视觉模型也会随着时间的推移发生改变
  • 理想的资源分配方案应该可以适应视频内容的变化,从而最大限度地提高资源效率

System design

挑战

1.如何识别SRoI

2.如何选择合适的model,需要了解要识别内容的特征以及网络情况等

3.不管SRoI有多少,延迟标准是相同的

不同SRoI模型选择会耦合,向一个SRoI分配不必要的资源会剥夺其他SRoI提高准确性的机会

Overview

1.SRoI预测器基于最近记录预测SRoI,将结果的坐标和内容特征向量传给资源分配器

2.资源分配器估计每个模型的精度和延迟,结合网络和时延要求,解决模型分配问题并且输出执行计划给推理调度器

3.推理调度器通过球心投影从输入ERP帧中提取SRoI的PI,每个PI的大小是其分配模型的输入大小

4.PI被发送到适当的本地或server进行推理

5.结果经过整合和变换得到最终的球形检测结果

6.该结果和网络状况分别被反馈给SRoI预测器和资源分配器

A.Lightweight SRoI Prediction

  • 根据历史信息预测SRoI,将每个历史对象都合并到SRoI中
  • 对于大于60°×60°的物体,特殊方式处理
  • 为避免严重依赖历史信息,采用球形物体发现机制。如果预测的SRoI数量持续较低,则发送ERP帧到服务器推理

B.Content-specific model performance estimation

预测每个候选模型的推理时延检测精度

关于时间:

  • 每图像推理时延=目标设备运行数千次的平均推理时延

关于精度:

  • 将对象分为三个小、中、大级别,使用标准化目标面积(normalized object area, NOA)作为度量关联2D和球形图像大小
  • 模型i的通用精度向量(general accuracy vector,gav)为

  • 上述三类分别代表n个类别的小、中、大尺寸的在模型i上的精度
  • SRoI的内容特征向量(content characteristics vector,ccv)为

  • 上述三类分别代表n个类别的小、中、大尺寸的出现概率
  • 模型的检测精度为

 

C.Latency-constraint model allocation

时延:

  • 预处理时延:移动设备从输入帧获取SRoI的PI的投影时间和压缩及编码时间
  • 推理时延:传输(在线被动分析方法)和模型推理时延(类似SectionB)
  • 不同SRoI的与处理时延和推理时延可以形成pipeline

优化问题:

  • 在时延限制下最大化权重精度
  • 设计了动态规划算法(支配对)
  • 直接使用随机生成的SRoI处理顺序

D.

调度器获取PIs并发送到指定位置推理,并将结果转换为SphBBs

Performance evaluation

A.System implementation

移动设备:Nvidia Jetson TX2

Edge server:Intel i7-6850K CPU and an Nvidia GeForce GTX 1080Ti GPU

Router:ASUS AC1900

massaging library:ZeroMQ

B.Evaluation setup

Video and models:

Networks:

  • tc,17.9Mbps

Performance Metrics:

  • Sph-mAP,Mean End-to-end latency

Baselines:

  • ERP, CubeMap

Latency control

C.Evaluation Results

Performance improvement:

system overhead on mobile devices:

sensitivity to image compression quality

sensitivity to network settings

 

  • 22
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值