图像和像素

图像和像素

1. 大模型生成图像
2. 像素
3. 图像的局部细节与全局轮廓


像素我们不陌生,图像我们更不陌生
学习计算机视觉,我认为第一步就是要了解我们要处理的对象,就像上一篇讲到的,计算机视觉任务中,图像(像素)是原材料,算法是菜谱
了解了图像的特征,才可以更好的完成更多图像处理任务,比如对一张图片进行分类,或者对一张图片画框做检测。

大模型的图像生成

多模态大模型,输入一句话便可以让模型画出一张图片出来,内部计算机对于画图所理解的,也是基于图像像素间的关系特征来实现的。

比如今天我在某平台上输入了下面一句话,希望可以帮我画出 “ 战士军前半死生,美人帐下犹歌舞 ”的画面。
在这里插入图片描述
在这里插入图片描述
大模型通过语言描述直接生成绘画的技术:简单说就是先把自然语言转换为一种AI的内部特征空间表示,然后由模型内部特征表示空间表示转换为图像

也就是由A -->内部特征 -->B的过程,而内部特征是统一的,如此一来,大模型不仅可以实现语言描述转换为图片,也可以实现图片描述转换为文字(看图写作),也可以实现图片转换为音频。

这也就是所谓的多模态,因为AI的中间特征是一致的,这些特征表示,很大程度上是基于像素关系来实现的。

像素

一个神经网络处理图片,处理的也并不是很深奥的东西,恰恰就是像素之间的关系特征。

一个摄像头2000w像素的手机,拍出来的照片效果要比像素1000w的清晰很多,人们也更容易看清图片中的物体是什么。
在这里插入图片描述
这是因为像素越多,特征(比如色彩,水流细节都属于图像的特征)越丰富,我们所看到的信息就越多,自然而然获取到的信息就多。

相比于水流细节这种特征之外,我们在用人眼观察一张图片时,还会观察一个大致的图像轮廓,然后来判断这张图片中的物体是什么?

我喜欢用下图的例子来说明这个问题
在这里插入图片描述
这张图虽有不清晰,像素点很少,但这并不妨碍我们认出图像中画的是什么,即使你用手挡住图像的下半部分,我们依然可以辨别出来。

这是因为人眼对于图像的识别,是建立在一种图像像素局部性的特征之上的。

因此我们只看一张图片的局部,有时候便可以区分这张图片是什么,甚至把图片上下倒置90度,依然可以辨别。
在这里插入图片描述
这是因为图像关键特征信息还在,没有丢失。

关键特征比如红色的嘴巴,标志性的笑脸,图片经过裁剪或者反转,这些像素依然在局部表达着红色嘴巴和笑脸的特征。

基于这个原理,很多计算机视觉任务,为了保持训练模型的鲁棒,会对输入数据集做一些数据增强的操作,上面说的旋转和裁剪便是数据增强的一些方法。
基于数据增强之后的数据集训练出来的模型,它的鲁棒性更强,因为这个时候你给它一个倒立的哆啦A梦,它也能识别出来。

像素组成了图像,但绝不是一个像素就能组成图像,这个问题很悬,就像是一堆米粒,到底多少颗才能算一堆? 没有定数。

到底多少像素才能表示这是一张图像,也不好说,只要是像素之间可以表达出图像的特征,就可以了。

图像的局部细节与全局轮廓

其实上面说到了图像的两种特征。

一种是很局部的细节,比如我们在PS照片时经常会使用 “ 锐化 ” 这一方法,使图片更加突出边缘细节,从而整体更加清晰。

另一个特征是全局的特征,一般为图像中物体的轮廓,图像中物体的色调等。人眼看这两种特征是不一样的。

看细节特征,我们更加倾向于“ 眯着眼 ”看,此时瞳孔更加聚焦于某一处细节。看全局轮廓,我们更加倾向于“ 瞪大眼 ”看,此时瞳孔会放大,视网膜接收到更多像素光线。

这是人眼观察图像的动作,巧的是,在人们不断摸索计算机视觉算法的过程中,发现一种算法可以近乎完美的模拟人眼看图像的这个过程,那就是卷积。无论是传统计算机视觉中的高斯滤波、均值滤波,还是深度学习中的卷积、池化,大都和此有些联系。

  • 22
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值