一、什么是计算机视觉?
计算机视觉,其实就是教机器怎么像我们人一样,用摄像头看看周围的世界,然后理解它。比如说,它能认出这是个苹果,或者那边有辆车。除此之外,还能把拍到的照片或者视频转换成有用的信息,帮我们做决定。整个过程就是为了让机器能看懂图像,然后根据这些图像来做出聪明的选择。
二、计算机视觉实现起来难吗?
人类依赖视觉,找辆汽车轻而易举,毕竟汽车那么大,一眼就能看出来,所以常误以为计算机视觉简单,但实际上,这个过程背后有复杂的视觉处理机制,涉及大脑多通道处理、注意力系统选择性分析、以及反馈机制的调节。
大致的视觉原理如下:从原始信号摄入开始(瞳孔摄入像素 Pixels),接着做初步处理(大脑皮层某些细胞发现边缘和方向),然后抽象(大脑判定,眼前的物体的形状,是圆形的),然后进一步抽象(大脑进一步判定该物体是只气球)。
所以,机器的方法也是类似,就像搭积木一样,我们用机器来学习识别图片,就是一层层地搭建神经网络。最下面的几层负责找出图片里最基本的东西,比如边边角角或者颜色块。然后,这些基本特征再被组合起来,形成更复杂一些的特征,就像是用小积木拼成大积木。这样一层一层地往上,每一层都用下一层的特征来构建更高级的特征。最后,到了最顶层,机器就能根据这些层层叠加的特征来决定图片里是啥东西了。
所以要开发高级的人工智能视觉系统,需要模拟人类的视觉机制,包括大脑、眼睛和感官的协同工作,这其实是一个非常有挑战性的任务。
三、学习计算机视觉的挑战
计算机视觉在实现过程中会受到很多因素的影响,比如:
图像噪声
就是指照片里那些乱七八糟、本来不应该出现的斑点或者条纹。这些东西可能是摄像头不够好,或者光线太暗,或者是照片在传过来的时候出了点问题造成的。这些噪声会让照片看起来没那么清楚,质量下降,对计算机视觉来说就像是干扰信号,特别是在计算机要认出照片里是什么东西,或者是要把照片里不同的部分分开来的时候,这些噪声就特别碍事。