#见解与观点#
研究领域是数字图像处理(Digital Image Processing, DIP)和计算机视觉(Computer Vision, CV)的同学可能会经常接触各种高级算法和深度学习网络,顶会顶刊的文章让人应接不暇,反而让人搞不清数字图像处理与计算机视觉的边界、分不清它们与深度学习有什么关系和区别。我来谈谈自己的见解和观点,希望可以帮助刚入门的同学把概念理清楚,对以后的学习将大有裨益。
1 区别
首先,通过一张表格(表1)从映射关系、所属领域以及目标等方面对这三个概念做区分。
概念 | 映射关系 | 领域 | 目标 |
数字图像处理 | 图像 > 图像 | 数字信号处理 | 增强图像视觉效果 |
计算机视觉 | 图像 > 信息 | 人工智能应用 | 识别理解图像内容 |
深度学习 | 不固定 | 人工智能工具 | 学习数据pattern |
数字图像处理属于数字信号处理的范畴,其目的是增强图像的某种视觉效果,比如图像锐化、直方图均衡、降噪、去雾、超分辨等,输入的是待处理的图像,输出处理后的图像,是一种图像到图像的映射。各手机厂商摄像机部门的ISP (Image Signal Processing)岗位、医学影像设备厂商的图像后处理岗位应该都在卷此类算法。
计算机视觉是人工智能的一个应用分支,与机器视觉含义相同,其目标是帮助计算机获得与人类相似的视觉能力。人工智能的其他应用分支还有自然语言处理,帮助计算机获得听说能力;机器人运动控制,帮助机器人获得自由行动能力。计算机视觉的输入是图像,输出对图像内容的理解信息,比如分类、分割、目标检测等。
深度学习是实现人工智能的方法和工具之一,是指采用多层人工神经网络作为学习模型的机器学习方法。深度学习中的卷积神经网络就是专门为处理图像数据设计的网络模型,它具有卷积核的局部特性、平移不变性、共享参数等特点,非常适合处理图像。2010年代,卷积神经网络可以说是数字图像处理和计算机视觉领域的主流方法。Transformer本来是处理自然语言的模型,自从2020年ViT (Vision Transformer)的工作将其引入到计算机视觉领域,近年来大有取代卷积神经网络成为新主流方法之势。
2 联系
首先,深度学习作为方法和工具,被广泛应用到数字图像处理和计算机视觉领域。但深度学习又不仅仅被应用到这些领域,随着数据规模和算力的增长,深度学习已成为人工智能应用中的主流方法,包括自然语言处理、机器人运动控制等。
数字图像处理和计算机视觉的边界其实是比较模糊的。数字图像处理可以增强图像视觉效果,经常被用于计算机视觉中的预处理阶段。数字图像处理领域的顶刊IEEE Transactions on Image Processing也会发表图像分析的文章,如分类、分割、目标检测等;计算机视觉领域的顶会CVPR也会发表图像处理的文章,比如图像超分辨、去雾等。但我们只需要牢记一点:数字图像处理的最终目标是增强图像的视觉效果,比如对比度、分辨率、信噪比等;计算机视觉的目的是让机器获得视觉能力,能“看”懂图像。
欢迎转载,促进学术交流,转载请注明原作者,谢谢!