001:AI 视觉迈出第一步,通过了解像素来完成

本文为专栏合集收录,欢迎你订阅合集学习。

完整版请参考这里

像素

学习计算机视觉,我觉得第一步就是要了解我们要处理的对象,就像上一篇说到的,计算机视觉任务中,图像(像素)是原材料,算法是菜谱。

了解了图像的特征,才可以更好的完成更多图像处理任务,比如对一张图片进行分类,或者对一张图片画框做检测。

大模型的图像生成

多模态大模型,输入一句话便可以让模型画出一张图片出来,内部计算机对于画图所理解的,也是基于图像像素间的关系特征来实现的。

比如今天我在某平台上输入了下面一句话,希望可以帮我画出“战士军前半死生,美人帐下犹歌舞”的画面。

在这里插入图片描述

大模型通过语言描述直接生成绘画的技术:简单说就是先把自然语言转换为一种AI的内部特征空间表示,然后由模型内部特征空间表示转换为图像。

也就是由 A -> 内部特征 - > B 的过程,而内部特征是统一的,如此一来,大模型不仅可以实现语言描述转换为图片,也可以实现图片描述转换为文字(看图写作),也可以实现图片转换为音频。

这也就是所谓的多模态,因为AI的中间特征是一致的,这些特征表示,很大程度上是基于像素关系来实现的。

像素

一个神经网络处理图片,处理的也并不是很深奥的东西,恰恰就是像素之间的关系特征。

一个摄像头2000万像素的手机,拍出来的照片效果要比像素1000万的清晰很多,人们也更容易看清图片中的物体是什么。

在这里插入图片描述

这是因为像素越多,特征(比如色彩,比如水流细节都属于图像的特征)越丰富,我们所能看到的信息就越多,自然而然获取到的信息就多。

相比于水流细节这种特征之外,我们在用人眼观察一张图片时,还会观察一个大致的图像轮廓,然后来判断这张图片中的物体是什么?

我喜欢用下图的例子来说明这个问题。

在这里插入图片描述

这张图虽有不清晰,像素点很少,但这并不妨碍我们认出图像中画的是什么?即使你用手挡住图像的下半部分,我们依然可以辨别出来。

这是因为人眼对于图像的识别,是建立在一种图像像素局部性的特征之上的。

因此我们只看一张图片的局部,有时候便可以区分出这张图片是什么,甚至把图片上下倒置90度,依然可以辨别。

在这里插入图片描述

这是因为图像关键特征信息还在,没有丢失。

关键特征比如红色的嘴巴、标志性的笑脸,图片经过裁剪或者反转,这些像素依然在局部表达着红色嘴巴和笑脸的特征。

基于这个原理,很多计算机视觉任务,为了保持训练模型的鲁棒,会对输入数据集做一些数据增强的操作,上面说的旋转和裁剪便是数据增强的一些方法。

基于数据增强之后的数据集训练出来的模型,它的鲁棒性更强,因为这个时候你给它一个倒立的哆啦A梦,它也能识别出来。

不至于变成人工智障。

像素组成了图像,但绝不是一个像素就能组成图像,这个问题很悬,就像是一堆米粒,到底多少颗才能算是一堆?没有定数。

到底多少像素才能表示这是一张图像,也不好说,只要是像素之间可以表达出图像的特征,就可以了。

图像的局部细节与全局轮廓

其实上面说到了图像的两种特征。

一种是很局部的细节,比如我们在PS照片是经常会使用“锐化”这一方法,使图片更加突出边缘细节,从而整体更加清晰。

另一特征是全局的特征,一般为图像中物体的轮廓,图像中物体的色调等。

人眼看这两种特征是不一样的。

看细节特征,我们更加倾向于“眯着眼”看,此时瞳孔更加聚焦于某一处细节。看全局轮廓,我们更加倾向于“瞪大眼”看,此时瞳孔会放大,视网膜接收到更多像素光线。

这是人眼观察图像的动作,巧的是,在人们不断摸索计算机视觉算法的过程中,发现一种算法可以近乎完美的模拟人眼看图像的这个过程,那就是卷积。

无论是传统计算机视觉中的高斯滤波,均值滤波,还是深度学习中卷积、池化,大都和此有些联系,这一点后面会继续阐述。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

董董灿是个攻城狮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值