1.图像作为函数 | 机器视觉介绍_1

Tom Boom

于 2018-11-25 09:50:52 发布

阅读量709

点赞数 2

分类专栏：机器视觉技术

机器视觉技术专栏收录该内容

80 篇文章

订阅专栏

目录

CV and CP的区别

开始机器视觉之旅

什么是机器视觉？

为什么学习机器视觉？

OCR和人脸识别

特效和3D建模

安全性和医学成像

为什么这么难？

机器视觉不是图像处理

机器视觉工具和环境

前言

机器视觉，它涵盖如何从图像中提取内容和分析图像的基本方面。

也就是说，我们如何构建可以看到并能解读图像的计算机或者机器。

我所讲的是什么意思呢？我的意思是我们将涵盖数学和计算方法为您提供如何的核心概念，可以构建计算机来解释图像。

请注意我使用的是单词"interpre"。

在机器视觉中，我们有兴趣提取信息，来自图像的知识。

很多人想要超越处理图像以真正了解什么，在图像内部，图像的内容是什么。

因此，我们将学习如何使用图像进行计算的数学和基本概念并从中提取信息。

机器视觉是关于分析图像和视频中提取知识。大多情况下，这些图像都是真是的情景，就像街景图像一样：

汽车和自动驾驶汽车，他们将不得不通过或它可能是其他类型的图像，如人体头部内的X射线图像。

我们需要进行图像分析才能提取出来。

所以基本上目标是图像和视频的处理，这意味着在图像中标记有趣的东西，并在它们移动时跟踪它们。

接下来的文章都会围绕着构建图像理解的系统。除了数学和基础理论背景，还会有一系列的任务展示，让我们真正掌握计算机视觉经验。

CV and CP的区别

机器视觉和机器摄影，两种之间的知识会有一些重叠，尤其是在我们最初的几个模块中了解用图像计算和从图像中提取信息。

机器摄影实际是关于捕捉场景中的光，然后将场景录制成图片或其他相关的新人工制品展示了这一场景。

进行图像分析以支持捕获和以新颖的方式展示场景，其中一些实际上是关于构建更新形式的相机和软件促进了这一进程。

机器视觉实际上是解释对场景的分析。这就是场景图像的内容，谁在那里?图像中的内容和发生的事情。

这两个主题它们都是关于建立智能系统和处理、分析图像和照片的。

开始机器视觉之旅

什么是机器视觉？

有几种方法可以考虑它。机器视觉的一种思考方式是：机器视觉是解释图像。

也就是说，说出现场的内容或现场发生了什么。

所以，我们正在做的是，我们将拍摄图像，什么会出现的东西对它有一些意义。

也就是说，我们要提取，我们要创造某种解释，某种对图像代表什么的理解。

这是不同的，你们中许多人可能有一些接触图像处理，这是对图像的操纵。这是图像和图像的输出。

我们将讨论一下，因为你每次使用图像处理用于机器视觉。但从根本上说，机器视觉是关于在图像中理解某些东西。

为什么学习机器视觉？

你可能因为一个顶尖学校的学位或是一份工作，但你也能有更好的理由。

如今，图像和图像在我们所有的技术都无处不在。相机、视频、你可以流式传输，你可以发送它们等。

因此，对于很多人来说，什么是基础？

系统是图像处理中的操纵。并从中提取信息。

有监视等领域。有用于医学成像的建筑3D模型。有捕捉动作等这些都是利用机器视觉的当前不同行业。

但重要的是，这样做的原因是，它真的很酷并深刻的问题。

例如：如何识别房子里面所有东西？如何识别一个人像鸟一样挥手？如何让计算机跟人一样一眼识别出来？

好消息，在本系列的最后：

我们将至少为您提供一些实际可以考虑计算机处理视频的方法，这些方法能够识别一个人所做的简单操作。

OCR和人脸识别

有趣的问题是？什么是最先进的？现在在机器视觉？

人们用计算机视觉做的事情是什么？

怎么可能与人类视觉的方式相比较呢？

这是一个简单的例子，事实上曾经被考虑过很难，但实际上现在很标准。

让我们来谈谈简单的光学字符识别。下面是一些车牌阅读器的例子：

车牌更容易，因为有一个固定的字体。事实上，不久前做OCR被认为是非常困难的。

今天如果你有扫描仪，或如果你有Adobe Acrobat，它内置了OCR，就能做了。

更加有挑战性的，很多人可能已经开始使用自动柜员机。您可以使用手写的数字存入银行支票。

这就是机器视觉在"有什么数字？"方面的提取意义的例子。

人脸识别

现在另一件非常普通的事情是人脸检测。

几乎你今天买的任何数码相机，你拿起来，使用默认设置，它将找到面孔。所以，这是一个例子。

顺便说一下，其中一件很酷的事情是未来的系列文章，我们将讨论的技术基本上就是这样做的。

所以下一次，所以当我们到达那些，你拿起相机和它找到了面孔。

你会说，哦，我知道它们是怎么做的。

但实际上，现在，相机可以做得更多。如果你拍某人照片，它们会眨眼，它会告诉你，你们眨了眼睛。

也许更有趣的是，索尼有一种叫做笑脸快照的功能。

你按下它，然后说，现在拍一张照片，但实际上它等到你，它看到了人的微笑才开始照下来。

如今，甚至还有更多相机可以识别你是谁。摄像头可以作为登录界面的功能，这些都是面部识别功能。

目标识别

现在有很多技术涉及对象识别，例如有个商场，从把东西放在篮子的底部和然后把它拿出去，忘记向收银员提及它在那里。

这实际上是大问题。而系统，你可以在这里看到相机：

它可以检测到商品是什么。这是非常酷的。

对象识别过去需要大量的计算能力。至今，计算能力变得越来越小，它允许我们现在以更小的包装运行。

所以，这是增强现实的整个领域，移动设备识别对象。使用手机拍一个建筑就可以告诉你建筑相关内容。

现在，相机可以在你的眼镜里面，Google Glass方面得到了使用，Glass所做的其中一件事就是你有一台相机，你所看到的。

并且可以通过相同的物体识别方法，可以为您提供有关您正在查看的内容的信息。

这也是机器视觉的一部分。

特效和3D建模

有一个机器视觉领域，人们对此知之甚少。它在特效中使用了很多，从捕捉某人的形状，一切。

因此你可以扫描某人的脸，无论是激光还是其他。你建立模型，然后你可以让很多这些人，和你可以从不同的方面点亮它们，

不同的方向，因为你有一个完整的3D模型。

同样，动作捕捉，所以如果你看到加勒比海盗，那个人脸上带着所有奇异的东西，当然，你知道，那是CGI，但问题是，

他们怎么知道真实的脸放在哪里？嗯，那就是有这些标记正在被这些相机追踪，如图：

他们必须弄清楚三维几何，和这也是机器视觉的一种形式。

另一个领域，但这实际上是谷歌地球的一个镜头，这是来自微软的Virtual Earth。谷歌地球的另一个版本。

基本上，他们可以拍摄图像，所以这里是图像，航拍图像。如图：

但是，他们也可以用它来弄清楚建筑物的模型。把那些三维模型放在那里，然后你可以随心所欲地飞来飞去。

所以这是一个使用大量图像的运动方法的结构。一个序列，以恢复三维结构。

智能汽车

最近发展很快的是使用机器视觉的汽车。一个公司叫做Mobileye，这是一家以色列的公司。

他们开发了各种使用机器视觉的技术与汽车有关。

该车的系统会自动会自动识别行人所在的位置，如果行人越来越近，他们有一个系统提醒你开车开太快了。

你还可以构建制动或减速等系统。但这个想法是机器视觉真正进入智能汽车。

事实上，智能汽车就在这里：

这是斯坦利，斯坦利是斯坦福大学。车窗那里有个小红S，参加了DARPA举办的Urban Grand Challenge。最后赢了比赛。

这是一场全自动化驾驶的比赛。说服谷歌参与制造汽车。自驾车，大多数人都听说过。但无人驾驶车也逐渐开始上升。

导致现在很多个州已经开始通过立法，这就是技术开始影响政策和经济的地方。

体育

机器视觉的另一个重要经济市场是体育。如果你在电视上观看任何类型的体育节目，

你会看到他们有时以强有力的方式利用机器视觉。

例如：羽毛球判断是否出界。还有足球可以看到是否手球，或者犯规动作等等。

游戏

最近正在真正改变的事情是机器视觉推向视频游戏。其中有一款产品"Nintendo Wii"，如图：

遥控器，实际上一个有内置的摄像系统，跟踪来自传感器栏的两个点并报告信息。

但真正的利用机器视觉改变游戏的改变者是：微软的Kinect。

它是一款深度传感器，它可以从场景中生成图像。重点是Kinect的重要之处在于它创造了一个深度图像。如图：

还有它可以产生骨架描述。如图：

使用与应用机器视觉的机器学习技术的组合，能够从深度图像中恢复人的骨架几何形状。

他们的功能很强大，因为他们得到骨架的信息，也可以构建非常酷的用户界面。

还有Kinect机器人为什么知道人在向它挥手？原因就在于此，它们得到你的骨架信息。

而这反过来又允许机器人决定机器人想要做什么。这些创造确实彻底改变了人们对深度图像的思考方式。

机器视觉应用于深度图像。

安全性和医学成像

因为人群的安全等各种原因使用这种能够监控环境的想法。。

这是从西门子出售系统的屏幕截图，做端口监控。只是要知道人们是否在游荡，或者车辆是否正在接近。

这也是一个机器视觉。通过机器视觉对单个人产生更直接的影响是有效的。

医学成像

有各种各样的3D成像，MRI，CAT扫描，这样的东西，但在这里你看到一些工作：

机器视觉正在注册头骨，在桌面上有一个从3D成像创建的模型。因此，当外科医生看着这台显示器时，他会看到真人。

现在，你对现有的技术快速了解了，希望他们能够激励你。

上面所展示的都不到十年。而且事实上，他们当中还不到五年。所以这个领域正在迅速变化，而且，现在机器视觉有很多机会。

学完本系列的文章你可以发明一些很酷的技术。

为什么这么难？

机器视觉也是一个很难的问题，我们来举个例子：

有我们有一个简单场景，有A方格和 B方格，如图：

这个实验是在麻省理工学院进行的，你看到了那个圆柱投下了阴影，这个时候有个问题要问你：

你觉得A方格更暗，还是B方格更暗？

一般大家都会说A方格！

现在我们来加入一条灰色的条形图，这个灰色条形图强度一致。现在把条形图靠近A、B方格。如图：

现在我们遇到了问题，A、B方格都没有边缘。这意味着方格A和方格B颜色相同。

这就是什么机器视觉为什么那么难。

机器视觉不是图像处理

经过上面的例子证明仅仅测量图像属性并不能完全解决问题。

图像之间也有差异，虽然两张照片的内容相同，但是里面确实存在一些差异。

这里我首先要知道我们的大脑是怎么看图片的？我们会受一个物体的阴影所影响。如图：

注意看球的阴影，球阴影伴随着球。但是球做什么动作，阴影还是在板子地下，我却说球做了不同的动作。如图：

球其实一直板子，但是我们会因为它的阴影而说它飞起来了。

再举个例子：

你现在看到一个绿纸，如图：

加了一些阴影之后，你会觉得它上升了。如图：

你只要看看绿纸的左上角，其实根本没有动静。

所以这是大脑做这种结构判断的例子。从某种意义上，我们的大脑出了差错了吗？球实际上没有飞升起来。

但实际上，那里发生的事情是，球的含义是模凌两可的，正在做，你的大脑正在创造故事，它正在进行描述，

和直接处理图像和机器视觉正在建立这种描述。

接下来将向你展示一些您将会使用的有帮助的方法。

本文章会提供一些代码，但为你的健康，请编写自己的代码实现功能，这样对你有很大好处。

例如，库中的功能出现问题时，你会知道发生了什么。而且你将了解算法的工作原理。

机器视觉工具和环境

Matlab是目前企业用最多的工具，但Matlab需要收费。作为练习可以使用Octave，因为它是开源的，而且类似于Matlab。

（Matlab网站提供了很多资源来帮助你入门，包括代码示例，网络研讨和广泛的文档）

Octave还提供与Matlab等效的图像处理工具箱。对于你们可能宁愿使用Pthon和OpenCV来实现功能。

OpenCV是最初来自英特尔的，来自Python或C++的强大方式，OpenCV确实让人们可以做很多图像处理工作。

你可以使用其中一种编程环境。但Matlab更倾向于让事情变得容易一点。

——学会编写自己的代码，才能练出真功夫。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。