计算机视觉


图像是像素的网格,每个像素的颜色,通过三种基色定义:红,绿,蓝
在这里插入图片描述

颜色追踪

最简单的算法是跟踪一个物体的颜色
比如一个粉色的球,我们先记下球的颜色,保存最中心的像素RGB值
在这里插入图片描述
在这里插入图片描述
算法可以从左上角开始逐个检查。计算和目标的颜色·差异
在这里插入图片描述
不止这张图片,我们可以在视频每个帧跑这个算法,跟踪球的位置,当然因为光线,阴影和其他影响,球的颜色会变化,不会和存的RGB值一样。
如果条件更极端一点,比赛在晚上,追踪效果可能会很差,如果球衣颜色和球一样,算法完全晕了。
因此很少用这张颜色追踪算法。
颜色追踪算法是一个个像素搜索,因为颜色在一个像素里,但这个像素不适合占多个像素的特征,比如物体的边缘由多个像素组成,为了识别这些特征,算法需要一块一块像素来处理

垂直边缘

在这里插入图片描述
假设用来帮无人机躲避障碍。为了简单,我们可以把图片转成灰度,不过大部分算法可以处理颜色
在这里插入图片描述
在这里插入图片描述
可以很容易看到杆的左边缘从哪里开始。
在这里插入图片描述
我们可以弄个规则说
某像素是垂直边缘的可能性,取决于左右两边像素的颜色差异程度。

在这里插入图片描述

核(过滤器)

如果色差很小,就不是边缘。
这个操作数学符号如下,这叫核或者过滤器,里面的数字叫做像素乘法,总和存在中心像素里。
在这里插入图片描述
来看个例子

在这里插入图片描述
在这里插入图片描述
这指定每个像素要乘的值
然后把所有数加起来
在这里插入图片描述
成为新像素,把核用于像素块,这种操作叫卷积
把核用于另一块
在这里插入图片描述
色差很小不是边缘
如果把核用于照片的每个像素
在这里插入图片描述
注意水平边缘,没有显示,如果要突出那些特征
在这里插入图片描述
有两个边缘增强的核叫prewitt算子,这只是简单的两个核,核能做很多种图像转换。
在这里插入图片描述
在这里插入图片描述

人脸检测

核也能像饼干模具,匹配特定的形状。
我们也可以做出擅长找线段的核
在这里插入图片描述
包个圈对你比色的区域。
在这里插入图片描述
这类核可以描述简单的形状。
在这里插入图片描述
所以线段敏感的核对这里的值更高。
眼睛也独特,一个黑色圈圈被外层更亮一层像素包围着。
在这里插入图片描述
在这里插入图片描述
可以找出人脸的特征组合,虽然每个核单独找出脸的能力很弱,但组合在一起相当精确。
在这里插入图片描述
这是早期很著名的维奥斯.琼恩人脸检测算法。

卷积神经网络

神经网络最基本单位是神经元。
它有多个输入,然后把每个输入乘一个权重值
在这里插入图片描述
听起来很耳熟,因为它很像卷积。
在这里插入图片描述
完全就像卷积,输入权重等于核的值,但与预定义核不同,神经网络可以学习对自己有用的核,来识别图像的特征。
卷积神经网络用一堆神经元处理图像数据
每个都会输出一个新图像,本质是被不同的核处理了。卷积卷积爱再卷积,第一层可能会发现边缘这样的特征,下一层在基础上识别,比如由边缘组成的角落,然后下一层在角落上继续卷积。下一些有可能有识别简单物体的神经元,比如嘴和眉毛,然后不断重复逐渐增加复杂度,知道某一层把所有特征放一起。
在这里插入图片描述
卷积神经网络,并不一定要很多层,但一般会有很多层来识别复杂物体和场景,所以才算是深度学习。
维奥拉。琼斯和卷积神经网络,不只能认人脸,还可以识别手写文字。
在这里插入图片描述
不管用什么算法,识别出脸后,我们可以用更专业计算机视觉算法来定位面部标志。
在这里插入图片描述
比如鼻尖和嘴角
在这里插入图片描述
只是点与点之间的距离。
也可以追踪眉毛的位置。
在这里插入图片描述在这里插入图片描述

在这里插入图片描述

抽象

在硬件层面,有工程师在造更好的摄像头,让计算机有越来越好的视力。
用来自摄像头的数据,可以用视觉算法找出脸和手
可以用其他算法接着处理,解释图片中的内容,比如用户表情和手势i,有了这些,人可以做出新的交互体验。
比如智能电视和智能辅导系统来根据用户手势和表情来回应。
在这里每一层都有活跃的研究领域。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值