计算机视觉

一、定义

        计算机视觉(Computer Vision)是人工智能(AI)领域的一个重要分支,旨在使计算机能够模拟和解释人类视觉系统的过程,从而理解和处理图像和视频数据。计算机视觉涉及图像处理、模式识别、机器学习等多个领域的交叉学科,致力于开发算法和技术,使计算机能够从图像和视频中提取有用的信息,并进行高级的理解和推断。

        深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向

        机器学习能够适应各种数据量,特别是数据量较小的场景。如果数据量迅速增加,那么深度学习的效果将更加突出,这是因为深度学习算法需要大量数据才能完美理解。

      计算机视觉通常利用传统的机器学习 (ML) 技术或深度学习方法。使用标准的 ML 方法,开发人员可以对小型应用程序进行编程,以识别图像中的图案。然后,统计学习算法将对图像进行分类并检测其中的对象。这是对原始方法的巨大改进,在原始方法中,开发人员必须手动将大量独特的规则编码到计算机视觉应用程序中。

        用于计算机视觉的深度学习为 ML 提供一种截然不同的方法。该方法基于神经网络,可以通过识别所提供示例中的模式来解决问题。它需要大量的高质量训练数据并适当调整变量,例如所使用的神经网络的数量。有了足够多的示例,神经网络将学会识别目标对象(例如放射图像中的癌变),而无需其他指导。许多计算机视觉应用程序都使用深度学习技术,因为它们比其他方法更易于部署。

二、计算机视觉的工作原理

        计算机视觉需要大量数据。 它一遍又一遍地运行数据分析,直到能够辨别差异并最终识别图像为止。 例如,要训练一台计算机识别汽车轮胎,需要为其输入大量的轮胎图像和轮胎相关数据,供其学习轮胎差异和识别轮胎,尤其是没有缺陷的轮胎。

这个过程会用到两种关键技术:一种是机器学习】,深度学习;另一种是卷积神经网络 (CNN)

        机器学习使用算法模型,让计算机能够自行学习视觉数据的上下文。 如果通过模型馈入足够多的数据,计算机就能"查看"数据并通过自学掌握分辨图像的能力。 算法赋予机器自学的能力,而无需人类编程来使计算机能够识别图像。

        CNN 图像分解为像素,并为像素指定标记或标签,从而使机器学习或深度学习模型能够"看"到物体。 它使用标签来执行卷积运算(用两个函数产生第三个函数的数学运算)并预测它"看到"的东西。 该神经网络运行卷积运算,并通过一系列迭代检验预测准确度,直到预测开始接近事实。 然后它以类似于人类的方式识别或查看图像。就像人类辨别远距离的图像一样,CNN 首先辨别硬边缘和简单的形状,然后一边运行预测迭代,一边填充信息。 CNN 用于理解单个图像。 循环神经网络 (RNN) 以类似的方式在视频应用程序中帮助计算机理解一连串帧中的图片关系。

        CNN(卷积神经网络)是一种自学习的深度神经网络,通过卷积、池化和全连接层逐步抽取图像的高层特征并实现分类。

        什么是卷积?卷积就是两个函数之间的相互关系,然后得出一个新的值,他是在连续空间做积分计算,然后在离散空间内求和的过程。实际上在计算机视觉里面,可以把卷积当做一个抽象的过程,就是把小区域内的信息统计抽象出来。

三、计算机视觉 -- 开源框架

        计算机视觉的学习离不开工程实现,而开源框架提供了便捷的开发环境,目前流行的来源框架包括TensorFlow、Keras、PyTorch、Caffe、MXNet等深度学习框架;OpenCV用于图像处理与算法实现。

四、计算机视觉 典型算法

SIFT、HOG、HAAR、LBP等特征提取算法;

SVM、CNN等机器学习模型;

IOU、NMS等用于目标跟踪与检测的算法。

五、机器学习模型

SVM、决策树、贝叶斯分类器是传统机器学习模型;

CNN、RNN是深度学习模型,在视觉任务中广泛应用。

六、 深度学习网络结构

LeNet、AlexNet、VGGNet、ResNet、FPN、Mask RCNN等是计算机视觉常用的深度学习网络结构。

七、深度学习与机器学习

1.计算机视觉(computer vision)CV 与 深度学习(deep learning)DL

        计算机视觉简单来说就是利用各种传感器获取信息,转化处理,以便能够让机器像人一样的视觉能力一样感知外部环境。深度学习就是在 转化处理 过程中打辅助的,因为信息量大,需要很强的软硬件配合,配以高配置硬件使得深度学习这一种技术方法在大信息量处理的速度和准确度上有很大优势,所以就将两者结合起来了。

2. 深度学习DL 与 各种实现框架(tensorflow、pytorch、keras等等)

        深度学习就是一种技术原理,那么技术原理需要一个东西(框架)去将它变成可用可操作的。

3、深度学习DL与卷积神经网络(Convolutionnal netural network,简称CNN)

        深度学习是一种技术原理,而这里的卷积神经网络就是技术原理的核心,可以理解为一种数据处理的方法。

八、深度学习应用方法

        深度学习应用的方法主要是神经网络,最简单的神经网络有以下几个部分:输入层(x),隐藏层,输出层(y)。

        卷积神经网络  ,我们应用深度学习方法分析图像时,由于图像的特殊性质:平移不变性、旋转/视角不变性、尺寸不变性等,处理图像常用的是卷积神经网络。与普通神经网络相比,增加的是卷积层和池化层。增加卷积层和池化层目的是减少数据量,并能提取图像的所有特征。

九、主要任务和作用

(1)图像分类:计算机视觉可以将图像自动分类为不同的类别,例如将动物图像分类为猫、狗、鸟等。

(2)目标检测:该任务涉及识别图像中的多个物体并标记其位置,如自动驾驶中检测道路上的行人和车辆。

(3)语义分割:计算机视觉可以将图像中的每个像素分配给特定的类别,从而实现更精细的图像理解。

(4)人脸识别:识别和验证人脸,广泛应用于安全访问控制和社交媒体标记等。

(5)行为分析:分析图像或视频中的行为模式,如监控摄像头中的异常行为检测。

(6)三维重建:利用多个图像或视频,计算机视觉可以还原三维场景,用于增强现实(AR)和虚拟现实(VR)等应用。

(7)医疗影像分析:辅助医生进行影像诊断,检测疾病和异常情况。

(8)农业和环境监测:用于监测作物生长、检测病虫害以及监测环境变

参考学习:https://zhuanlan.zhihu.com/p/630729643

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值