什么是计算机视觉
- 与计算机视觉密切相关的概念有视觉感知(visual perception),视觉认知(visual cognition),图像和视频理解( image and video understanding).
- 从广义上说,计算机视觉就是“赋予机器自然视觉能力”的学科。
- 自然视觉能力,就是指生物视觉系统体现的视觉能力。
- 计算机视觉本质上就是研究视觉感知问题。
- 视觉感知,根据维科百基(Wikipedia)的定义, 是指对“环境表达和理解中,对视觉信息的组织、识别和解释的过程”。
- 根据这种定义,计算机视觉的目标是对环境的表达和理解,核心问题是研究如何对输入的图像信息进行组织,对物体和场景进行识别,进而对图像内容给予解释。
与人工智能的联系
- 人工智能更强调推理和决策,但至少计算机视觉目前还主要停留在图像信息表达和物体识别阶段。
- “物体识别和场景理解”也涉及从图像特征的推理与决策,但与人工智能的推理和决策有本质区别。
简言之
- 简言之,计算机视觉是以图像(视频)为输入,以对环境的表达(representation)和理解为目标,研究图像信息组织、物体和场景识别、进而对事件给予解释的学科。
发展四阶段
-
计算机视觉的研究内容,大体可以分为物体视觉(object vision)和空间视觉(spatial vision)二大部分.
- 物体视觉在于对物体进行精细分类和鉴别,而空间视觉在于确定物体的位置和形状,为“动作(action)” 服务。
-
马尔计算视觉、主动和目的视觉、多视几何与分层三维重建和基于学习的视觉。
-
马尔计算视觉(Computational Vision)
-
三个层次: 计算理论、表达和算法以及算法实现。
-
由于马尔认为算法实现并不影响算法的功能和效果,所以,马尔计算视觉理论主要讨论“计算理论”和“表达与算法”二部分内容。
-
计算理论(Computational Theory)
- 明确视觉目的, 或视觉的主要功能是什么。
- 马尔的计算理论是什么呢?这一方面,马尔在其书中似乎并不是介绍得特别具体。他举了一个购买商品的例子,说明计算理论的重要性。如商店结账要用加法而不是乘法。试想如果用乘法结账,每个商品1元钱,则不管你购买多少件商品,你仅仅需要付一元钱。
- 马尔的计算理论认为,图像是物理空间在视网膜上的投影,所以图像信息蕴含了物理空间的内在信息,因此,任何计算视觉计算理论和方法都应该从图像出发,充分挖掘图像所蕴含的对应物理空间的内在属性。也就是说,马尔的视觉计算理论就是要“挖掘关于成像物理场景的内在属性来完成相应的视觉问题计算”。
-
表达和算法(Representationand Algorithm)
- 识别物体之前,不管是计算机还是人,大脑(或计算机内存)中事先要有对该物体的存储形式,称之为物体表达(object representation).
- 马尔视觉计算理论认为,物体的表达形式为该物体的三维几何形状。
-
简言之,马尔视觉计算理论的“物体表达”,是指“物体坐标系下的三维形状表达”。注意,从数学上来说,一个三维几何形状,选取的坐标系不同,表达函数亦不同。
-
算法部分是马尔计算视觉的主体内容。马尔认为,从图像到三维表达,要经过三个计算层次:首先从图像得到一些基元(primal sketch), 然后通过立体视觉(stereopsis)等模块将基元提升到2.5维表达,最后提升到三维表达。
-
由上图所示,首先从图像提取边缘信息(二阶导数的过零点),然后提取点状基元(blob, 线状基元(edge)和杆状基元 (bar), 进而对这些初级基元(raw primal sketch)组合形成完整基元(full primal sketch),上述过程为视觉计算理论的特征提取阶段。在此基础上,通过立体视觉和运动视觉等模块,将基元提升到2.5维表达。最后,将2.5维表达提升到三维表达。在马尔的《视觉》一书中,重点介绍了特征提取和2.5维表达对应的计算方法。在2.5维表达部分,也仅仅重点介绍了立体视觉和运动视觉部分。由于当双眼(左右相机)的相互位置已知时(计算机视觉中称之为相机外参数),立体视觉就转化为“左右图像点的对应问题”(image point correspondence), 所以,马尔在立体视觉部分重点介绍了图像点之间的匹配问题,即如何剔除误匹配,并给出了对应算法。
————————————————
版权声明:本文为CSDN博主「人工智能学家」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/cf2SudS8x8F0v/article/details/78598730 -
缺点
- 对马尔计算视觉理论提出批评最多的有二点:一是认为这种三维重建过程是“纯粹自底向上的过程”(pure bottom-up process),缺乏高层反馈(top-down feedback);二是“重建”缺乏“目的性和主动性”。由于不同的用途,要求重建的精度不同,而不考虑具体任务,仅仅“盲目地重建一个适合任何任务的三维模型”似乎不合理。
-
-
-
昙花一现的主动和目的视觉
- 对马尔视觉计算理论提出批评的代表性人物有:马里兰大学的 J. Y. Aloimonos;宾夕法尼亚大学的R. Bajcsy和密西根州立大学的A. K. Jaini。 Bajcsy 认为,视觉过程必然存在人与环境的交互,提出了主动视觉的概念(active vision). Aloimonos认为视觉要有目的性,且在很多应用,不需要严格三维重建,提出了“目的和定性视觉”(purpose and qualitative vision) 的概念。
- 通用视觉尽管无法给出严格定义,但“人类视觉”是最好的样板。这篇观点文章发表后,国际上20多位著名的视觉专家也发表了他们的观点和评论。大家普遍的观点是,“主动性”“目的性”是合理的,但问题是如何给出新的理论和方法。而当时提出的一些主动视觉方法,一则仅仅是算法层次上的改进,缺乏理论框架上的创新,另外,这些内容也完全可以纳入到马尔计算视觉框架下。所以,从1994年这场视觉大辩论后,主动视觉在计算机视觉界基本没有太多实质性进展。
- “主动视觉”应该是一个非常好的概念,但困难在于“如何计算”。 主动视觉往往需要“视觉注视”(visual attention),需要研究脑皮层(cerebral cortex)高层区域到低层区域的反馈机制,这些问题,即使脑科学和神经科学已经较20年前取得了巨大进展的今天,仍缺乏“计算层次上的进展”可为计算机视觉研究人员提供实质性的参考和借鉴。
-
多视几何和分层三维重建(Multiple View Geometry and Stratified 3D Reconstruction)
-
多视几何( Multiple View Geometry)
- 由于图像的成像过程是一个中心投影过程(perspective projection),所以“多视几何”本质上就是研究射影变换下图像对应点之间以及空间点与其投影的图像点之间的约束理论和计算方法的学科(注意:针孔成像模型(The pinhole camera model)是一种中心投影, 当相机有畸变时,需要将畸变后的图像点先校正到无畸变后才可以使用多视几何理论)。
- 计算机视觉领域,多视几何主要研究二幅图像对应点之间的对极几何约束(epipolar geometry), 三幅图像对应点之间的三焦张量约束(tri-focal tensor),空间平面点到图像点,或空间点为平面点投影的多幅图像点之间的单应约束(homography)等。
- 在多视几何中,射影变换下的不变量,如绝对二次曲线的像(The image of the absolute conic),绝对二次曲面的像(Theimage of the absolute quadric), 无穷远平面的单应矩阵(infinite homography),是非常重要的概念,是摄像机能够自标定的“参照物”。
- 多视几何需要射影几何(projectivegeometry)的数学基础。射影几何是非欧几何,涉及平行直线相交,平行平面相交等抽象概念,表达和计算要在“齐次坐标”(homogeneous coordinates)下进行。
-
分层三维重建( Stratified 3D Reconstruction)
- 指从多幅二维图像恢复欧几里德空间的三维结构时,不是从图像一步到欧几里德空间下的三维结构,而是分步分层地进行。即先从多幅图像的对应点重建射影空间下的对应空间点(即射影重建:projective reconstruction),然后把射影空间下重建的点提升到仿射空间下(即仿射重建:affine reconstruction),最后把仿射空间下重建的点再提升到欧几里德空间(或度量空间: metric reconstruction)(注:度量空间与欧几里德空间差一个常数因子。由于分层三维重建仅仅靠图像进行空间点重建,没有已知的“绝对尺度”,如“窗户的长为1米”等,所以从图像仅仅能够把空间点恢复到度量空间)。
- 以空间三维点的三维重建为例,所谓的“射影重建”,是指重建的点的坐标与该点在欧几里德空间下的坐标差一个“射影变换”。所谓的“仿射重建”,是指重建的点的坐标与该点在欧几里德空间下的坐标差一个“仿射变换”。所谓的“度量重建”,是指重建的点的坐标与该点在欧几里德空间下的坐标差一个“相似变换”。
- 分层三维重建的另一个特点是其理论的优美性。射影重建下,空间直线的投影仍为直线,二条相交直线其投影直线仍相交,但空间直线之间的平行性和垂直性不再保持。仿射重建下可以保持直线的平行性,但不能保持直线的垂直性。度量重建既可以保持直线之间的平行线,也可以保持垂直性。在具体应用中,可以利用这些性质逐级提升重建结果。
- 指从多幅二维图像恢复欧几里德空间的三维结构时,不是从图像一步到欧几里德空间下的三维结构,而是分步分层地进行。即先从多幅图像的对应点重建射影空间下的对应空间点(即射影重建:projective reconstruction),然后把射影空间下重建的点提升到仿射空间下(即仿射重建:affine reconstruction),最后把仿射空间下重建的点再提升到欧几里德空间(或度量空间: metric reconstruction)(注:度量空间与欧几里德空间差一个常数因子。由于分层三维重建仅仅靠图像进行空间点重建,没有已知的“绝对尺度”,如“窗户的长为1米”等,所以从图像仅仅能够把空间点恢复到度量空间)。
-
摄像机自标定(Cameraself-calibration)
- 所谓摄像机标定,狭义上讲,就是确定摄像机内部机械和光电参数的过程,如焦距,光轴与像平面的交点等。尽管相机出厂时都标有一些标准参数,但这些参数一般不够精确,很难直接在三维重建和视觉测量中应用。所以,为了提高三维重建的精度,需要对这些相机内参数(intrinsic parameters)进行估计。在文献中,有时把估计相机在给定物体坐标系下的坐标,或相机之间相互之间的位置关系,称为相机外参数(extrinsic parameters)标定。但一般无明确指定时,相机标定就是指对相机内参数的标定。
- 相机标定包含二方面的内容:“成像模型选择”和“模型参数估计”。
-
基于学习的视觉(Learning based vision)
-
长期以来,人们认为物体识别模型为“鉴别模型”( discriminative model),而不是“生成模型”( generative model )。近期对猴子腹部通道的物体识别研究表明,猴子大脑皮层的IT 区( Inferior Temporal: 物体表达区域)可能在于编码物体及其成像参数(如光照和姿态,几何形状,纹理等)(Yildirim et al. 2015)(Yamins &DiCarlo,2016b.)。由于已知这些参数就可以生成对应图像,所以对这些参数的编码可以认为是逆生成模型表达。逆生成模型表达可以解释为什么深度学习中的Encoder-decoder 网络结( Badrinarayanan et al. 2015) 可以取得比较好的效果,因为Encoder本质上就是图像的逆生成模型。另外,深度学习中提出的“逆图形学”概念( Inverse Graphic)( Kulkarniet al. 2015),从原理上也是一种逆生成模型。逆图形学是指先从图像学习到图像生成参数,然后把同一物体在不同参数下的图像归类为同一物体,通过这种“等变物体识别”(Equivariant recognition) 来达到最终的“不变物体识别”(invariantrecognition)
————————————————
版权声明:本文为CSDN博主「人工智能学家」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/cf2SudS8x8F0v/article/details/78598730
计算机视觉五大技术
- 图像识别,对象检测,目标跟踪,语义分割,实例分割
能干什么
- 光通量
- 辐照度:投射到一平面上的辐射通量密度。
照明与图像
-
数字图像采集与表示
-
颜色空间表达
-
RGB和CMYK颜色模型
-
颜色空间概念和HSI颜色模型
-
颜色模型
-
各颜色对应波长和频率
- 三基色原理
-
RGB颜色模型
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fl7YsgW9-1634727294512)(C:\Users\27815\AppData\Roaming\Typora\typora-user-images\image-20211010133620595.png)]
-
补色\CMYK颜色模型
-
HSI
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RITvYFJT-1634727294513)(C:\Users\27815\AppData\Roaming\Typora\typora-user-images\image-20211010133805705.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r88wqB8M-1634727294515)(C:\Users\27815\AppData\Roaming\Typora\typora-user-images\image-20211010134424529.png)]
-
-
颜色空间分解
-
相关函数
-
颜色空间转换
python:
python: dst=cv.cvColor
-
颜色空间
-
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Sf8w5tHa-1634727294516)(C:\Users\27815\AppData\Roaming\Typora\typora-user-images\image-20211010134804314.png)]
-
imshow.py
import cv2 as cv filename = r'E:\Open-CV.file\10.moth\img\0001.jpg' img = cv.imread(filename) gray = cv.cvtColor(img, cv.COLOR_BGR2GRAY) cv.imshow("source image", img) cv.imshow("gray",gray) cv.waitKey() hsv=cv.cvtColor(img,cv.COLOR_BGR2HSV) cv.imshow("Hue",hsv[:,:,0]) cv.imshow("Saturation", hsv[:, :, 1]) cv.imshow("Value", hsv[:, :, 2]) cv.waitKey() cv.imshow("Blue", img[:, :, 0]) cv.imshow("Green", img[:, :, 1]) cv.imshow("Red", img[:, :, 2]) cv.waitKey() cv.destroyAllWindows()
-
-
-
图像平滑滤波
- 最浅显的卷积与滤波概念讲解
- 什么是卷积:
- [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jydz56PX-1634727294516)(C:\Users\27815\AppData\Roaming\Typora\typora-user-images\image-20211010154205885.png)]
- 什么是卷积:
- 图像平滑滤波与去噪
- 数字形态学滤波
边缘检测
- 为什么要检测边缘
- Canny算子
- 数学形态扩展应用
图像变换
- 有什么用
- 灰度直方图
- 霍夫变换
图像分割
- 为什么
- 基于灰度直方图的阈值分割
- 局部阈值化分割
- 区域长生算法
- 分水岭算法
- 图像分割演练
图像描述
- 图像表示与描述
总结
边缘检测
- 为什么要检测边缘
- Canny算子
- 数学形态扩展应用
图像变换
- 有什么用
- 灰度直方图
- 霍夫变换
图像分割
- 为什么
- 基于灰度直方图的阈值分割
- 局部阈值化分割
- 区域长生算法
- 分水岭算法
- 图像分割演练
图像描述
- 图像表示与描述