图像视频技术漫谈之一------多媒体技术

最新推荐文章于 2024-06-17 10:59:32 发布

lwjaiyjk3

最新推荐文章于 2024-06-17 10:59:32 发布

阅读量1.9k

点赞数

分类专栏：图像处理的研究方向文章标签：视频多媒体应用

图像处理的研究方向专栏收录该内容

2 篇文章 1 订阅

订阅专栏

这篇文章，主要是从宏观上或者说是从商业应用上总结一下现阶段图像视频底层技术的发展及应用点，从一个图像视频算法研究人员的角度谈一谈对这个领域的认识。图像视频领域的商业应用，集中在多媒体娱乐、互联网、智能监控、工业机器视觉、OCR、生物特征识别、医学图像处理以及军事国防几个领域。
多媒体领域主要集中了MicroSoft、Adobe、MITSUBISHI、Cyberlink、Muvee、Autodesk、Corel、Sony、2D3、MotionDSP等一批公司，这些公司都有自己的图像视频算法的研究团队，以及跟世界知名大学研究机构的密切合作。PAMI、IJCV、CVPR、ICCV、ECCV、SIGRAPH上的很多论文很多出自他们之手，他们也可以很快的把这些新的研究成果商品化。这个领域的研究人员，在关注上面说的几大会议和期刊的同时，也应该不断跟踪这几家公司的研究成果。
多媒体领域的研究方向比较杂，包括但不限于下面几类，视频智能编辑、视频感兴趣区、图像视频场景分析、图像视频修复及后处理、人脸系列技术、非真实感渲染（NPL）系列技术、3D系列技术、人机交互技术等。
视频智能编辑，主要包括视频镜头边界检测以及在此基础上的视频自动故事片生成、视频广告检测、视频废镜头检测等。视频镜头边界检测在经历了一段时间的发展之后，检测率也达到一定的程度，目前基本上不再有新的文章出现。视频自动故事片生成往往需要音视频技术的结合，并且由于缺乏有效的评级机制，最近几年已经不是研究的热点，但是相信各个视频编辑领域的公司仍在研究或者开发过程之中。视频中的广告检测作为其中的一个小的分支，可能因为没有很大的商业价值，研究的并不多，但想要真正实现高的检测率，仍然有很多值得研究的地方。视频废镜头检测其实是视频修复的一部分，包括检测视频中的抖动片段、模糊片段、过曝过暗片段等，从而达到视频修复的目的。
视频感兴趣区的研究，最近是一个热点方向，感兴趣区提取和跟踪可以用来做视频智能缩放，可以用来指导视频编辑中的精彩视频片段选择，还可以在片源采集时就用来指导摄像机捕捉精彩片段。人脸、人物、车辆、小动物、房屋、花草树木等在特定的场景下等都可以作为感兴趣区，感兴趣区提取的方式方法也比较多，但除了人脸、人物检测技术上还比较成熟之外，其他目标的检测很难达到满意的准确度。人物检测基础上的精细分割抠像技术，也是图像领域的一个基础研究方向，准确的抠像，是换背景等智能化效果的基础。
图像视频场景分析，主要用在视频管理和视频按场景选择和编辑。通过对不同的场景的特征进行分析设计分类器进行分类，对于视频管理这种不要求很高精度的应用点可以满足要求。照片和视频按场景内容管理，跟基于人脸识别技术的照片管理，是基于内容管理的两个方式，相信今后的多媒体编辑和管理软件都会逐步增加这个功能。
图像视频的修复及后处理，主要包括视频抖动修复、图像视频去模糊、视频过曝过暗修复、视频去雾化、老电影旧照片修复、马赛克修复、视频图像超分辨率、视频图像智能变比例缩放、视频帧插值、图像视频去噪等。
视频抖动修复关键是摄像机轨迹的检测，确定了摄像机的移动轨迹，视频修复就有了基础的指导。通过寻找视频中的特征点，然后对特征点进行跟踪，通过分析每个特征点的轨迹，确定摄像机的整体轨迹。如果假定视频中的内容都是一个平面上，只考虑摄像机在2D平面的轨迹，事情要容易的多，但事实上摄像机的轨迹应该是3D的，这就变成了一个“Structure from Motion”的问题，处理起来就比较复杂，但如果想得到理想的稳像效果，得出摄像机3D轨迹是必须的。另外，摄像机3D轨迹的求取，也是其他基于3D的视频应用的基础，这个后面再讲。
图像视频去模糊，这个的关键是寻找模糊核，也就是拍摄的瞬间摄像机或相机的运动轨迹，在这个运动轨迹上反卷积，就可以恢复摄像机不动情况下拍摄的视频、图像，也就是不模糊的视频、图像了。所以，对视频的去模糊，比起对图像的去模糊，手段要多一些，因为视频去模糊可以通过视频序列的信息来得到摄像机的运动轨迹。而图像的去模糊，这个运动轨迹只能是通过对图像内部结构的分析进行估计。考虑到轨迹估计和反卷积的运算量，不管是图像去模糊还是视频去模糊，目前都不算很成熟，但是成熟的产品应该会在短期内出现。
视频过曝过暗修复，如果视频质量不是太差，直方图被挤压的不是太厉害，还可以通过直方图均衡化的方式进行简单修复，但是如果直方图被挤压的很严重，那就只能删除了。
视频、图像去雾化，简单点说，就是把被雾化的图像建模为一个正常的无雾的图像与纯雾的图像的合成，因为拍摄得到图像中雾的灰度值与景深有关，所以好的去雾算法，应该是以准确的景深估计为基础的，3D景深估计也是一个很热的方向。
老电影旧照片修复，大概包括色彩的修复和一些划痕修复，色彩修复，可以以类似去雾的建模方式，也可以简单的做色调调节，问题都不大。划痕修复就比较复杂，除了要把划痕检测到，还要用周围的像素来填充划痕的像素，比较典型的全变分方法可以用来处理这类问题。
马赛克修复，马赛克修复基本上还是要从产生的原因入手，如果是编解码层的问题，可以对编解码的数据尝试修复。如果到了解码后的图像数据，想要修复就是一个无中生有的问题了，只能是依靠边缘纹理来去掉马赛克的效果，但是想要恢复图像内容，除非后台有一个强大的针对特定目标的数据库来支持虚构类似的内容，否则毫无办法。
视频、图像超分辨率，超分辨率的方法，总体来说两种思路，一种是挖掘图像的边缘信息，在图像放大的时候，尽量保边缘，这类方法以NEDI方法为典型，缺点是速度比较慢。另一类是基于Patch的方法，首先建立一个低分辨率Patch对应高分辨率Patch的映射表，前期先把这个映射关系建立好，然后就只需要通过查找映射表来进行超分辨率操作了。如果建立的映射表足够大，那就可以得到比较理想的超分辨率结果，理论上讲不论速度还是质量都比前一种方法要好。
视频图像智能变比例缩放，是指通过分析图像视频中的内容，在图像、视频缩放的过程中，保留有内容的关键区域比例不变，而压缩、扩展不重要的区域，这样看起来缩放后的图像、视频主要内容不会变形。基于图像的智能缩放算法比较成熟，基于视频的由于要考虑视频序列的前后帧的连续性，必须加入时间轴的约束，因此效果不如图像理想，做的不好会引出视频的抖动问题。
视频帧插值，可以用来解决帧率变化的情况下，出现的视频抖动问题，主要是一个视频的全局运动，类似于视频抖动检测，应该说技术上不复杂，但是视频中的局部运动会干扰全局的运动估计，这样插值出来的帧就会存在一定的瑕疵。
图像视频去噪，方法很多，简单点通过滤波高频信号的方法如高斯滤波，或者简单的中值滤波都可以有一定的效果，但是目前看来，最理想的方法还是非局部均值（NLM）方法。其他的一些例如偏微分方程的方法也可以尝试。
人脸系列技术，包括人脸检测、跟踪，人脸特征点定位，人脸识别，人脸的表情识别，人的年龄、性别识别，人脸的美化，人脸卡通效果，人脸的变形效果，人脸的3D重建等以及与此相关的眼睛检测和红眼修复等。
非真实感渲染（NPL）系列技术，包括水墨画、水彩画、油画、漫画效果等人工画效果，风、雪、雨、烟、雾、火焰、海浪等一些自然环境的模拟效果。
人工画效果的实现主要是基于Stroke的方式，难点在于图像的解析，一个好的人工画效果，需要正确的将图像分解为不同的区域，并分析不同区域的结构特点来确定用笔方式、Stroke的精细度等参数。
对自然环境的模拟，主要是一些粒子的模拟，可以采用基于物理模型的方式研究粒子的受力及运动方式，流体力学的相关方法是这个领域的核心。
NPL技术，除了用于对图像、视频的特效上，另外像一些烟雾效果和水墨画效果用于艺术字的特效也是不错的选择。
3D系列技术，3D技术在视频中的应用点，可以看到的有3D稳像、3D对象嵌入等等，这里的关键是获取摄像机的3D轨迹与视频中的特征点的3D深度信息，通过视频序列分析摄像机的3D轨迹的技术叫“Structure from Motion”，大量的文章可以参考。有了摄像机的3D轨迹与视频中的特征点的3D深度信息，2维的图像信息就一定程度扩展到了3维。全景图的拼接技术，本质上也利用了基于双目视觉3维重构的一部分技术。得到了3D摄像头轨迹，可以利用这个信息进行3D插帧，借此虚拟重构双目视觉画面，通过3D眼镜，就可以看到比较理想的3D场景了。3D的应用，可以想象的空间比较大，多了一维信息，总可以做出一些新的东西。
人机交互技术，人机交互是指通过摄像头捕捉人的手势、身体的姿态、面部表情、眼睛的移动等信息，代替传统的鼠标键盘来指导计算机做出相应的处理。技术层面主要涉及目标的检测、跟踪以及姿态的识别。相比之前提到的多媒体的各种方向，人机交互应该是最有市场前景的方向，应用点也非常多。
除了上述的这些技术方向之外，在此基础上或者与这些技术相关的一些其他的应用也可能不断的出现，多媒体领域可以说是人工智能的一个试验田，很多即使不成熟的新技术都很可能首先在这个领域出现和发展。这个领域几乎可以囊括图像视频处理、模式识别的所有底层技术，必然可以衍生出很多很杂的应用点，需求五花八门，对此我们只能是多学多看，不断积累。