学习计算机视觉，必备六大知识点！（文末有惊喜）

计算机视觉农民工

于 2022-08-05 11:22:17 发布

阅读量4.2k

点赞数 1

分类专栏：人工智能计算机视觉文章标签：计算机视觉学习人工智能 opencv 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60721065/article/details/126173368

版权

人工智能同时被 2 个专栏收录

22 篇文章

订阅专栏

计算机视觉

2 篇文章

订阅专栏

一、五大常规任务

计算机视觉是研究如何让机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉。

计算机视觉中有5项常见任务，分别是图像分割、物体检测、物体识别、图像描述、语义推理。

图像分割是将图像分解成若干特定、具有独特性质的目标区域。例如用户输入左边这张照片，机器会对其做一些场景语义分割，将照片中的物体区分开来。

物体检测是发现目标并确定其位置。其最常见的任务有三类：这张图片中是否有XX？XX的数量是多少？XX的位置在哪里？

物体识别是在物体检测的基础上，不仅找到物体在哪里，还能确认它是什么。物体识别通常由两类常规任务构成：第一类任务是相似检索问题，比如搜索引擎中的相同或相似图像的搜索功能；第二类任务是相似比对问题。

图像描述即“看图说话”，由机器来描述照片中的内容。

语义推理是五项任务中最难的一项，即挖掘图像或视频内容背后更深远的故事。以上图为例，机器根据“鞋子里的小猫”这张图像进行背后故事挖掘，猜想小猫是因为好奇所以钻进鞋子玩耍。

二、计算机视觉的应用领域

计算机视觉在现实中的应用非常广泛。可以说，机器不仅能帮助人完成许多需要“看”的工作，还能“看见”更多人眼无法辨别的东西。例如以下几种应用：

指纹及其它生物特征识别

通过计算机利用人体所固有的生理特征（指纹、虹膜、面相、DNA等）或行为特征来进行个人身份鉴定的技术。比如科幻片中经常看到的指纹和虹膜识别，就都是运用了计算机视觉技术。

人脸检测识别

在往期的AI大学课程中，班主任有跟大家讲解过人脸识别的详细知识点哦（戳这里回顾）

视频监控和安防分析

如住宅区分布的智能视频监控系统、银行安防系统等，能够有效地监控、分析现场情况。

医学生物图像检测分析

X线图像、多排螺旋CT等可获取人体内部的二维、三维医学图像，大大提高了诊断准确性和效率。

除了以上四类应用，计算机视觉在拍照翻译和图像搜索方面也被广泛使用。例如讯飞翻译2.0就可以通过拍照来识别出文字，同时实现翻译。

还有文档分析识别、VR虚拟现实、辅助驾驶领域等等，都是计算机视觉领域的热点。

近两年有大量的资本涌入计算机识别领域，比如商汤科技已经融资33亿，旷视科技也融了31亿。在今年的4月份，商汤科技就宣布完成了6亿美元的C轮的融资，再次创下了人工智能单轮融资的记录。

由此可见，计算机视觉技术应用的发展前景是十分可观的。

这里我花了大半个月整理了一个100G人工智能计算机视觉精选资料包，内含八大模块：

扫码或关注公众号：AI技术星球回复：77 即可获取

三、计算机视觉技术的难点与挑战

尽管能力强大且应用广泛，计算机视觉技术仍然有许多难点尚未找到合适的解决方法，因此可以说是机遇与挑战并存。

计算机视觉技术的第一大难点是多变和非均匀的光照场景，例如一些逆光的场景。第二个是成像质量差异，比如说不同清晰度的相机拍出来的照片质量不同。第三个是复杂易混淆的背景，比如说雪地里的一只白猫。第四点是不同场景存在干扰和遮挡。

此外还有一些难点，包括失焦、透视变形等等。

四、卷积神经网络处理图像的过程

图像识别最常用的就是卷积神经网络，而卷积神经网络主要是模拟人的视觉神经系统提出来的。

以CNN做人脸识别任务为例，先得到一些像素信息，再往上层得到一些边界信息，然后再往上提取就是一些人脸的部件信息，包括眼睛、耳朵、眉毛嘴巴等，最后是人脸识别，这整个过程和人的视觉神经系统是非常相似的。

卷积神经网络的结构依旧包括输入层、隐藏层和输出层，其中卷积神经网络的隐含层包含卷积层、池化层和全联接层3类常见构筑，接下来我们着重讲解下卷积和池化的相关知识点。

卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核，一个卷积核覆盖的原始图像的范围叫做感受野（权值共享）。

一次卷积运算(哪怕是多个卷积核)提取的特征往往是局部的，难以提取出比较全局的特征，因此需要在一层卷积基础上继续做卷积计算，这就是多层卷积。

在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数，其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。

通过这种池化的操作，能够一定程度上克服图像的一些旋转和局部的细微变化，从而使得特征的表达更加稳定。

五、人脸识别

人脸识别技术是计算机视觉的一个典型应用，接下来我们就来讲解一下人脸识别中的相关知识点。

人脸识别的分类

人脸识别大体上分为静态人脸识别和动态人脸识别，它们的难度是不同的。静态的人脸识别，人是非常配合的，难度小很多，比如身份证的录入、银行办理业务时的人脸验证。

而动态的人脸识别会由于人脸距离摄像头的距离等因素，配合度较低，需要准确捕捉到运动的人脸，难度就比较大了。

人脸识别技术

人脸识别技术中有两项常见任务：判断图像或视频中出现的人是不是同一人，即人脸认证；判断这个人到底是谁，即人脸检索。人脸认证和人脸检索的核心均为人脸相似度的判决。

机器在判断两张图片中人脸的相似度时一般有以下4步：人脸检测---预处理---特征提取---特征对比。通过这些步骤不难看出，人脸识别技术是模仿人类识别人脸的过程，用计算机比较人脸图像的相似性。

看到这里可能有些同学要问：既然是比较相似性，那我们该如何评价人脸识别的效果呢？

说到人脸识别的效果，就不得不提到人脸识别的公开测试集。目前在国际上比较有名的人脸识别公开测试集一个是LFW公开集，此公开集中6000个图像对，最高准确率已经达到99.83%，超过了人眼的水平；另一个公开集是华盛顿大学发布的MegaFace公开集。

LFW公开集

如果从公开测试集的效果来看人脸识别技术已经逐步接近甚至是超过人眼的水平。

人脸识别效果的影响因素

虽然在公开集中人脸识别取得了很高的准确率，甚至在某些特定情况的准确率已经超过了人眼识别，但在实际应用过程中会存在很多影响因素，一类是外因，一类是内因。

外因的影响因素主要有光线影响，比如说极端的光线或者人脸光照分布不均等，除了光线以外摄像头分辨率也是一个很大的影响因素，拍摄角度不好或者离拍摄人物很远的时候，会导致机器识别不出人脸。

内因则包括人脸部的遮挡——墨镜、刘海、口罩等；还有些拍照角度以及脸部纹理变化也会影响人脸识别的效果。

六、图文识别

图文识别是计算机视觉的另一个典型应用。

图文识别的分类

图文识别的基本概念就是根据已有的文字把它识别出来。它主要有两个分类，第一个是OCR光学字符识别，即对已有的文字把它把它识别出来；另外一个就是在线手写识别，像大家熟悉的讯飞输入法里的手写输入，相比于OCR识别来说，手写识别包含了更多的笔划信息。

OCR识别

手写识别的演进过程

以讯飞的图文识别技术为例，大概经过了这4个演讲过程：

手写输入法

输入法中运用的单个字的识别技术。

手写图文

对于手写的中英文字、词、句子的识别。

行业文档识别

例如发票以及快递号的识别。

通用文字识别

这是现在我们要做的，就是随机拍个照片，就能对里面的文字进行识别了。

图文识别现在广泛运用于试卷评阅中。我们先让机器把手写的文字识别成机器能够看懂的格式，然后下面就可以做作文的评阅等相关工作了，现在，数学公式也能读出来了。最终，我们想要达到的目标是“Read anything”。

这里我花了大半个月整理了一个100G人工智能计算机视觉精选资料包，内含八大模块：

扫码或关注公众号：AI技术星球回复：77 即可获取

计算机视觉农民工

博客等级

码龄4年

71
原创

433
点赞

2995
收藏

592
粉丝

关注

私信

热门文章

分类专栏

计算机视觉 2篇
人工智能 22篇

展开全部收起

上一篇：: 如何在自定义数据集上训练YOLOv5

下一篇：: 超详细的OpenCV入门教程，12小时带你吃透OpenCV。

最新评论

学习深度学习是否要先学习机器学习？工程师的路径选择策略
计算机视觉农民工: 深度学习是机器学习的一个分支，能否直接采用深度学习，那还得视情况而定
Python爬虫入门教程！手把手教会你爬取网页数据
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/boost_spider 依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html
Python爬虫入门教程！手把手教会你爬取网页数据
K.traffic: [code=python] import requests from selenium import webdriver from bs4 import BeautifulSoup # 导入 BeautifulSoup 的方法 url = "https://www.luogu.com.cn/" cookies = "__client_id=02aa6cf408c26c9ec19bb4eca67a06dc5258e75e; _uid=730947" user = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36" header = {"User-Agent": user, "Cookie": cookies} res = requests.get(url, headers = header) html_doc = res.text soup = BeautifulSoup(html_doc,'html.parser') # 这里一定要指定解析器，可以使用默认的 html，也可以使用 lxml。 print(res) print(type(res)) print(type(html_doc)) print(html_doc) print(soup.prettify()) # 按照标准的缩进格式输出获取的 soup 内容。 print(soup.title) # 获取文档的 title print(soup.title.name) # 获取 title 的 name 属性 print(soup.title.string) # 获取 title 的内容 print(soup.p) # 获取文档中第一个 p 节点 buttons = soup.find_all('button') # 获取第一个 p 节点的 class 内容 button = buttons[1] # print(soup.find_all('a')) # 获取文档中所有的 a 节点，返回一个 list # print(soup.find_all('span', attrs={'style': " [/code]
Python爬虫入门教程！手把手教会你爬取网页数据
放牛娃168: 求大佬合作，需要资料
Python爬虫入门教程！手把手教会你爬取网页数据
九江吴彦祖: 我也一样

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。