原标题:人工智能与计算机视觉概述
人工智能发展至今,在计算机视觉上。我们人看到的是图像,而计算机看到矩阵数值,人工智能在计算机视觉上的目标就是解决像素值和语义之间关系,主要的问题有图片检测,图片识别,图片分割和图片检索。
什么是语义,通俗点讲就是它有什么信息。我们通过对数值距阵进行处理,得到一些信息,一些理解层次上的,比如这个7x7的数值矩阵表示一个人。但我们想让计算机知道这是一个人,并不是一件简单的事情,需要一些各种处理和操作。
图片检测就是检测它是什么,比如行人检测,人脸检测等。识别是更深层次的,比如人脸,车牌,但这里的人脸识别是更为精确的,之前的检测是检测这是不是一个人脸,而识别则倾向于这是谁的人脸。分割是把感兴趣的分割出来,有前景分割,语义分割。检索找岀相似的。它们用到的方法,有传统的方法,也有深度学习的方法。
下面我还想说一下一些深度学习名词和它们解决的问题。CNN卷积深经网络,这个主要是特征的描述,我们提取CNN特征,有人会问什么是特征,通俗一点讲,比如一个西瓜,他的大小,甜度都可以是他的特征,用来描述这个物体的,也可以用来判断这个物体。
我们人看到的物体有这些特征来让我们判断这是什么,而计算机而言,也需要特征来让计算机知道他是什么,其实很多是有做人工智能,多想想我们是怎么认知的,可以模拟让计算机也这样,可以解决很多问题;
rCNN是region区域的CNN,这个就解决检测相关问题,像fast-rCNN,faster-rCNN,本质上是每个区域的CNN特征,给出一个分数,设置一个阈值,阈值达到多少以后就是什么物体,这里我想说一个分数和阈值的问题,这两个东西在人工智能和机器学习中是很重要的.
因为计算机不能像人一样很直观的知道这是什么, 他在干什么,计算机需要一个评判标准,而分数和阈值就是一个评判标准,分数可以理解为相似度,可能是某个东西的可能性,然后你可以定义一个阈值,就是说分数大于多少,就认为他是什么,在计算机视觉中,比如多分类中,一个东西会给出他可能是各种物体的分数,然后通过设置知道他最可能是什么,那他就是什么。
至于这个分数怎么来的 ,在以后的我会更新说明。FCN,全卷积神经网络,解决分割问题。
后面我会更新一些个人目前常用的方法的理解想法,新的论文新的方法等。大家一起交流。最后附上一张计算机看到图,我们很多时候就是解决这些数值与语义也就是理解的问题。
责任编辑:
本文介绍了人工智能在计算机视觉领域的应用,重点探讨了图像检测、识别、分割和检索等问题。通过CNN、rCNN和FCN等深度学习方法,解决像素值与语义之间的关系。图像检测确定物体类型,识别则进一步确定具体对象,分割则是将感兴趣区域分离出来。分数和阈值在判断过程中起关键作用,用于确定物体可能性和类别。深度学习在特征提取和理解方面扮演重要角色,为计算机赋予类似人类的认知能力。
7176

被折叠的 条评论
为什么被折叠?



