机器视觉编码技术与标准进展

最新推荐文章于 2023-10-27 15:53:42 发布

LiveVideoStack_

最新推荐文章于 2023-10-27 15:53:42 发布

阅读量2.6k

点赞数 5

文章标签：算法大数据编程语言计算机视觉机器学习

本文链接：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/117677314

版权

本文探讨了机器视觉编码的最新进展，重点介绍了VCM和DCM等标准组织的工作，强调了机器视觉编码在减少带宽、时延方面的需求。随着5G和AI的发展，机器视觉在各个领域的应用日益广泛，对高效、针对性的编码标准需求增加。VCM标准组自2019年起研究机器视觉和人机混合视觉的压缩编码，旨在定义一种服务于多种机器任务的压缩码流，同时保障高压缩效率和任务性能。目前，该领域已形成多种技术路线，包括特征编码、端到端神经网络编码、特征提取和人机混合视频编码等。

摘要由CSDN通过智能技术生成

正文字数：8411 阅读时长：15分钟

本文整理自中国电信研究院新技术所机器视觉标准与应用研究部主任张园在LiveVideoStack做的线上分享。她详细介绍了VCM、DCM等标准组织机器视觉编码标准化工作最新进展、技术创新思路。

文 / 张园

整理 / LiveVideoStack

各位LVS的小伙伴大家好，非常感谢大家用宝贵的晚上时间，来听我跟大家分享机器视觉编码标准和技术的最新进展。类似的主题，我在今年LVS的4月上海站上讲过一次，根据当场收集到的意见，今天会把一些主要内容再做一次介绍。还因为4月份开了VCM会议，也会把最新的进展跟大家分享。欢迎大家后续多多交流和参与我们的工作。

我简单介绍一下背景。首先，现在其实物物通信已经逐渐在超越和取代人和人之间的通信，机器视觉编码的目标是，就是让机器拥有人类感知视觉信号的能力，代替人类大脑，作为机器大脑来服务于整个机器系统。根据统计数据，视觉是占据了人类所有感官数据摄入的87%。神经网络各方面的研究，包括脑机的研究，都是从视觉作为切入的，在机器的层面，视觉也是一个最重要的信息来源，所以我们把它作为一个首先要攻克的目标。

随着5G的发展，人工智能学习网络、深度学习和机器学习的发展，各种数据来源，包括文字、图像、声音、动画、视频等数据类型，现在都已经有了神经网络的处理方式，我们可以做CV、NLP的处理，语音的处理，以及基于数据挖掘、大数据分析、规划决策等的处理。这一系列智能任务，即识别、检测、分类、跟踪等都可以通过神经网络的方式来实现。传统的是采集视频，对视频进行压缩处理，现在加上神经网络，就非常自然地把视频这个独立的技术与垂直行业的应用，包括工业、车路、自动驾驶这些领域就天然结合起来。在新的发展情况下，要支持多媒体智能分析的任务，就需要面向机器视觉新的技术和应用。

这里是一些简单的统计数据，首先在整个网络流量里，视频大概占了80%，这里面有一半或一半以上是服务于机器或各种算法分析。虽然人们观看视频网站也是一大来源，但现在视频走向两条分支：一条是人类娱乐，一条是机器的智能分析算法。整个机器视觉的市场规模也在快速增长，现在也是一个风口、投资的重点领域。著名的5G三角形和5.5G六边形里面的主要应用都是跟机器视觉密切相关的，这里有智慧城市、智能家居、智慧楼宇、自动驾驶、工业自动化等。机器视觉现在非常广泛地应用在各个领域，是未来5.5G、6G流量的重要来源。整个CV算法在AI中，不管是成熟度、投融资比数、实际应用的占比，现在都是最大的一部分。

从这个背景，我们可以分析出，我们用机器视觉算法来代替人工处理任务已经是大势所趋。在过去监控的场景，如道路查违规、驾驶的场景，以及检测的场景，是以人为主。现在是机器逐渐在占据主导。电子眼已经广泛地使用，车载视觉都是L2、L3级别的自动驾驶，以及机器质量检测、故障检测，这些算法都非常普遍。

这里还是基于人眼，把图像用CMOS、CCD采集，再重建成像素，然后用机器算法以给人看的像素来分析。其实人类要看单个像素，但机器需要的只是里面的特征值，比如有没有故障这样一个特征状态，只要相关特征有了就可以，就可以推测出我们给人的这种方法来给机器做任务分析，它其实在存储和传输方面是有冗余的。我们从逻辑层面做了一个假设，可以用一种特征图只给机器看，用特征图的方式就避免了人所需要的色彩、饱和度这些信息，就可以满足物物通信视觉的需求，就降低带宽、时延等这些要求。

让我们的想法成为可能，最主要还是机器视觉和人类视觉有本质上的差异。这里进行了一些列举。在主要的纬度，机器视觉比人类视觉更好，这个比较好理解，譬如，灰度分辨力、空间分辨力、色彩的分辨、速度、精度等，都是比人类强。这里最主要的是速度，人只能看到25~30帧每秒，而机器可以抓到1000~2000帧每秒。但是人脑在智能方面非常好，人脑在V1、V2、V3等大脑结构中不同的处理，把接收到的光电信号，自动进行了压缩、分析和合成。但是机器在这方面，比如变换一个角度，或者天气环境的变化，它可能有误识别，机器在这方面还有很长的路要走。

总结一下，人眼和机器算法看的是不同的东西。人看的是边缘、细节，对大尺度的视频要求视频保真。机器就是关注任务的完成，要的是语义级信息来做检测、识别等，之外还有时延的要求，机器需要语义信息，不需要人眼看到的。基于这些差别，我们可以得出一个结论，传统的视频编码与无失真或无限接近去还原视频的编码方法，其实是不适用于机器的。