1.1 计算机视觉为什么是困难的
- 3D→2D的信息缺失:投影变换导致无法确定远近物体(类比小孔成像)
- 解释(语义):将机器获取的二进制通过某种认知系统进行转换从而使机器能够“看懂”图像,即机器通过将原始图像数据变成模型的过程,映射。
- 噪声:糊(各种意义)
- 数据量大:彩色 24bit/pixel 处理内容多
- 亮度量测:真实世界中光源位置不同,折射接近∞,和光线追踪不是一个量级;虽然光路可逆,但是ill-posed,在2D图像中尝试改变3D光源位置很难,因此通常采用在场景中寻找物体表观与其解释间的关系。
- 局部窗口与全局视图:猜下边这幅图背后是什么,这就是局部窗口,很难推出来全局是什么。
1.2图像表达与图像分析的任务
1.2.1图像表达
书里给了个图,阴影部分为图像表达。这部分唯一抽象的地方就在于有些东西只有机器这种对数字敏感的能看出来特点,像常见的衍射图像这种正常人都看不懂,但是机器可以比较出明显的不同。
1.2.2 图像理解
图像的理解是计算机将图像与真实世界中的模型建立联系的过程。在书中将其分为了两个层次:低层处理和高层处理。
低层指二进制数据也就是原始图像数据,低层处理使用各种图像压缩、噪声滤波、边缘提取和图像锐化等预处理方法对原始图像进行处理,不会牵涉到对图像内容的理解。可以理解为对矩阵中的数进行处理,单纯的数。
高层指计算机对图像进行“理解”,这就涉及到人工智能了,但是注意其人工两个字,注定是机器模仿人类去“理解”。举个栗子,现在有一个预训练模型它可以识别我给出的100张猫猫照片,现在我给出10张meme猫猫照片是它原先没有见过的,但是我告诉它“这是猫”,它会发现和模型中不匹配的地方,这个过程是自顶向下(top-down)的;它会根据这些不匹配的地方更改模型中对猫猫的“认知”参数,这个过程是自底向上(bottom-up)的。N次后他就可以正确识别meme猫猫照片了,即收敛于全局目标。
1.2.3 图像分割
图像分割就是将图像主体与背景进行剥离,这里可分为整体分割和局部分割。
整体分割偏简单,OCR(光学字符识别)应该都用过,将图像扫描为pdf,通过比对原始图像和扫描后的图像可以发现其中仍然有些东西我们想让他出现但是没有扫到,有些不想有的却扫上了☹。
局部分割就有难度了,这是低层图像处理的技术,将原始图像中有用的图像中对比比较明显的部分进行分割,比如图像中有一个货架,我只想数出可口可乐的数量就可以分割出红色的部分供上层使用。
分割的主要目的是为了减少数据量,OCR技术可以将大几MB的文件转成几十K的文件,局部分割同理减少了很多图像,因此可以提高高层的处理速度。