OpenCV计算机视觉实战(1)——计算机视觉简介

0. 前言

随着计算机和摄影技术的发展,计算机视觉作为一个实用领域应运而生。计算机视觉本质上赋予了计算机感知和理解世界的能力,通过图像和视频的视角来理解世界,这类似于为计算机赋予视觉和认知能力。
假设,我们向计算机展示一幅可爱的萌宠图像。尽管计算机缺乏类似人类的感知能力,却具备处理像素级数据并解读模式和结构的能力。例如,它可以辨别出尖耳、细须和尾巴的存在,形成萌宠独特的面部特征,支撑这种理解的机制正是图像处理。
图像处理包含了计算机完善和增强的视觉信息的技术,可以进行诸如颜色校正、降噪或边缘增强等改变,使展现的萌宠更加清晰,视觉观感更好。
计算机视觉的不仅限于识别猫咪或其它萌宠,在其他领域也有着出色的表现,包括自动驾驶车辆在道路上导航和避开障碍物、解读手写文本内容,以及根据放射图像识别疾病等。
计算机视觉是一个需要持续学习和适应的领域,类似于人类认知通过接触和经验而提高,计算机视觉通过积累额外数据和知识而得以加强。计算机视觉为各个领域(如医疗保健、安全、娱乐等)赋予了更多的智能,在本质上将视觉和理解赋予计算机,开启了一个充满更多可能性的领域。

1. 计算机图像学历史

计算机图像学已经具有几十年的历史,已经发展成为我们日常生活中不可或缺的一部分。接下来,我们将详细了解计算机图像学的历史。
计算机图像学的起源可以追溯到 20 世纪 50 年代,当时计算机处于初期阶段,研究人员开始探索利用计算机处理和生成图像。早期的里程碑之一是在麻省理工学院开发的 Whirlwind 计算机,它可以在屏幕上显示简单的图形。上世纪 60 年代,数字化图像开始蓬勃发展,研究人员设计了将照片和其他模拟图像转换为数字形式的方法,美国国家航空航天局通过在太空探索和遥感中使用数字图像,在推动计算机图像技术方面发挥了重要作用。上世纪 70 年代出现了早期计算机图形,计算机能够直接在屏幕上显示图像,施乐 PARC 和雅达利等公司为计算机图形的发展做出了贡献,产生了第一个视频游戏和交互式图形用户界面 (Graphical User Interfac, GUI)。在医学领域,计算机图像学在计算机断层扫描 (Computed Tomography, CT) 和磁共振成像 (Magnetic Resonance Imaging, MRI) 等领域得到应用,彻底改变了诊断学,使医生能够使用之前不可能的方式可视化人体内部结构。
上世纪 80 年代个人计算机的出现催生出 windows 操作系统,Adobe PhotoshopAdobe Illustrator 等应用彻底改变了图像编辑和设计。在此期间,计算机视觉领域蓬勃发展,研究人员致力于令计算机解释和理解图像,为面部识别、物体检测等打下了基础。上世纪 90 年代随着消费级数字相机的推出,数字摄影崭露头角,使个人更容易地捕捉和分享数字图像。图像传感器、图像压缩和存储技术的进步在数字摄影的普及中发挥了关键作用,在娱乐行业如电影特效中开始广泛使用计算机图像,视频游戏也随着越来越逼真的计算机生成图像 (Computer Generated Imagery, CGI)而发展。
近年来,深度学习和人工智能推动了计算机图像学发生了突破性进展,卷积神经网络 (Convolutional Neural Network, CNN) 彻底改变了图像识别和处理的方式,在自动驾驶汽车、面部识别、医学图像分析等领域得到了广泛应用。
当前,计算机图像已经成为许多行业的重要组成部分,从医疗到娱乐。随着人工智能和机器学习的不断发展,我们可以预期计算机图像在未来几年将会有更多激动人心的发展。

2. 图像信息检索

从图像中检索信息是计算机视觉和图像处理的重要方面。图像被用作隐藏数据的载体的技术,称为隐写术,将信息嵌入图像中,以使人眼无法察觉,这些隐藏的数据可以是文本、文件或其他形式的信息。用于在图像中隐藏和检索数据的方法和包括 LSB 替换、离散傅里叶变换、离散余弦变换等。
计算机视觉与隐写术不同,隐写术用于安全领域,计算机视觉则用于更加常见的任务,比如识别图像中的目标。例如,观察下图,我们可以轻松地得出这是猫咪的图像,但计算机如何得出这个结论呢?这是计算机视觉所面临的挑战。

猫咪

3. 图像处理

图像处理是一门包含理论和实践的领域,涉及操纵和分析图像以提高其质量、提取信息并将其应用于多种下游任务。它可以分为两个领域:模拟和数字,每个领域都有其自己的技术和信号处理算法。
模拟图像处理主要处理图像的连续表示,通常是照片、电影或其他模拟媒体。数字图像处理处理表示为离散数字集合(像素)的图像,是数字时代最常见的图像处理形式,涉及使用算法来操作和分析图像。数字图像处理和模拟图像处理之间的主要区别包括:

3.1 表示

数字图像表示为离散像素网格,每个像素具有特定的颜色或强度值,通常被量化为每个颜色通道(红色、绿色、蓝色)的 8 位 (0-255) 二进制值。例如,在数字图像中,像素的颜色可以表示为 (128, 64, 255),其中每个数字表示颜色通道的强度。
模拟图像是场景的连续表示,如照片或胶片。没有离散像素,图像信息通过光强度或颜色等性质的连续变化传递。例如,在模拟照片中,颜色由胶片乳剂的化学性质变化而捕获。

3.2 操作

在数字图像处理中,离散像素值应用算法增强、修改或分析图像。例如,可以使用数字滤波器来模糊或锐化图像、改变其亮度或去除噪音。模拟图像处理涉及物理过程。例如,可以在相机镜头前放置物理滤镜来改变颜色平衡,或者在照片冲洗过程中使用暗房技术来控制曝光。

3.3 灵活性

数字图像提供了很高的灵活性,可以轻松地撤消和重做操作步骤,在结果不及预期的情况下,可以尝试不同的算法或调整参数,而不会损害原始图像。模拟过程的灵活性较低,一旦将物理过程应用于模拟图像,将难以恢复到原始状态。

3.4 可重现性

数字处理中的结果易于重现,因为算法使用精确的数值,多次将相同的算法应用于相同的图像,将获得相同的结果。然而,在模拟处理中,由于化学或物理条件的变化等因素,结果可能会有所不同。

4. 数字图像处理

数字图像处理操作离散数字集合(像素),是数字时代最常见的图像处理形式,使用算法来操纵和分析图像。数字图像处理的一些关键操作如下:

  • 像素操纵:数字图像由像素组成,每个像素具有特定的颜色或强度值。算法可以操纵这些值以增强或修改图像,例如调整亮度和对比度
  • 滤波:使用基于卷积的滤波器用于执行模糊、锐化、边缘检测和降噪等操作
  • 变换:Fourier 变换和离散余弦变换等技术用于分析图像的频率成分,可以用于压缩和特征提取等任务
  • 图像增强:使用直方图均衡化、Gamma 校正和对比度拉伸等方法能够提高图像的视觉质量
  • 图像恢复:数字技术可以应用于恢复受损图像,例如去噪声、去模糊和纠正失真等
  • 图像压缩:使用 JPEGPNG 等压缩算法能够减小图像的大小以便存储和传输,同时保持可接受的图像质量

数字图像处理是计算机视觉的基础组成部分,通过使用算法来解释和理解图像,可以应用于对象识别、人脸检测和图像分割等任务中。

信号处理算法是数字图像处理的核心,通过对图像数据进行数学运算以实现各种目标。数字图像处理中常用的信号处理算法包括:

  • 卷积:将卷积核应用于图像进行滤波和特征提取
  • 傅立叶 (Fourier) 变换:将图像分解为其频率成分,可用于图像压缩和分析等任务
  • 小波变换:提供图像的多分辨率表示,可用于图像压缩和去噪等任务
  • 直方图均衡化:调整像素值的分布以增强对比度并提高图像可见度
  • 形态学操作:用于涉及形状和结构的图像分析和处理任务
  • 边缘检测:使用 SobelCanny 算子等可识别图像中的边缘和轮廓
  • Hough 变换:用于在图像中检测线条和其他几何形状
  • 快速傅立叶变换:傅立叶变换的一种变体,优化了计算频率成分的效率

小结

数字图像处理以其离散表示和算法灵活性,将我们带入了数字时代,图像可以轻松操纵、共享和分析。其精确性、可重现性和易于存储性使其广泛应用于从医学成像到计算机视觉等各种应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI technophile

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值