INFOCOM 2023：Omnisense论文阅读

一只小茶茶

已于 2023-12-25 21:06:45 修改

阅读量918

点赞数 22

文章标签：论文阅读

于 2023-12-25 21:04:18 首次发布

本文链接：https://blog.csdn.net/qq_46632496/article/details/135208928

版权

OmniSense: Towards Edge-Assisted Online Analytics for 360-Degree Videos

Abstract

OmniSense是第一个特别关注实际系统效率的边缘辅助的低延迟和高精度的在线360°视频分析框架，解决了计算和网络资源的挑战。主要实现了以下几方面内容：

通过轻量级的球形感兴趣区域(SRoI)预测方法，修剪360°视频帧的冗余信息
结合视频内容和网络动态性智能选择视觉模型分析SRoI，优化资源利用率
由现有的视觉模型提供支持，不需要设计和重新训练现有模型

Introduction

360°视频是球面图像，投影到2D平面实现存储和传输。

现有的模型大多针对2D透视图像(perspective images,PIs)，应用到360°图像时会造成几何扭曲和边界不连续，影响精度

如右上图所示，上下两极的图像有扭曲，其中一辆汽车不连续

一种解决方案是将整个球形内容投影到多个无失真的PIs中，但是要在不影响准确性的情况下减少分析所有PI的延迟是一个问题

专门为360°图像设计的分析算法十分消耗带宽

本文的贡献：

分析从现实世界收集的数据集，确定内容特征和资源节省的机会
边缘辅助框架，动态自适应分配不同的视觉模型去分析不同的SRoI对应的PI，在计算、网络、延迟的限制下提高精度
轻量级的SRoI预测算法，针对特定内容的模型性能评估模型，从而解决延迟受限的模型分配问题
在商用设备上实施和部署OmniSense

Background and related work

1.Regular视频的在线分析

几种优化方法：

由于感兴趣的事件是稀疏的，因此采用帧过滤
前后端拆分模型，最小化中间数据传输
基于RoI信息修剪冗余信息

2.沉浸式视频分析

全景到2D：

等距柱状投影ERP(equirectangular projection)和Cubemap projection立方体贴图投影
几何扭曲和边界不连续

透视投影:

[1]将球形细分为二十面体相切的多个平面图像网格，并将现有DNN应用于这些切线图像

需要大量的PIs，资源密集且耗时

[2]多重投影，将球体划分为四个宽重叠的子窗口，并通过立体投影将每个子窗口映射到平面

集中于提升准确率，不强调计算和网络资源的消耗

将投影失真的不变性显式编码到CNN中：

[3]学习一个球面卷积网络，在极低区域增加卷积核的大小，以近似ERP图像中的失真

[4]调整卷积滤波器的采样位置，有效扭转卷曲，将滤波器包裹在球体周围

上述两种方法需要重新设计卷积滤波器并重新训练

Authors：为沉浸式视频提供即插即用的底层分析框架，即应用现有模型而不进行修改

[1] M. Eder, M. Shvets, J. Lim, and J.-M. Frahm, “Tangent images for mitigating spherical distortion,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR’20), 2020, pp. 12 426–12 434.

[2] W. Yang, Y. Qian, J.-K. Kämäräinen, F. Cricri, and L. Fan, “Object detection in equirectangular panorama,” in Proceedings of the 24th International Conference on Pattern Recognition, 2018, pp. 2190–2195.

[3] Y.-C. Sun and K. Grauman, “Learning spherical convolution for fast features from 360◦ imagery,” in Proceedings of the 31st Conference on Neural Information Processing Systems (NeurIPS’17), 2017, pp. 529539.

[4] B. Coors, A. P. Condurache, and A. Geiger, “Spherenet: Learning spherical representations for detection and classification in omnidirectional images,” in Proceedings of the European Conference on Computer Vision (ECCV’18), 2018, pp. 518–533