图像和像素

最新推荐文章于 2024-06-04 11:09:07 发布

jr_Peng

最新推荐文章于 2024-06-04 11:09:07 发布

阅读量772

点赞数 22

分类专栏：计算机视觉入门文章标签：计算机视觉

本文链接：https://blog.csdn.net/jr_peng/article/details/135061864

版权

6 篇文章 0 订阅

订阅专栏

1. 大模型生成图像
2. 像素
3. 图像的局部细节与全局轮廓

像素我们不陌生，图像我们更不陌生
学习计算机视觉，我认为第一步就是要了解我们要处理的对象，就像上一篇讲到的，计算机视觉任务中，图像（像素）是原材料，算法是菜谱
了解了图像的特征，才可以更好的完成更多图像处理任务，比如对一张图片进行分类，或者对一张图片画框做检测。

大模型的图像生成

多模态大模型，输入一句话便可以让模型画出一张图片出来，内部计算机对于画图所理解的，也是基于图像像素间的关系特征来实现的。

比如今天我在某平台上输入了下面一句话，希望可以帮我画出 “ 战士军前半死生，美人帐下犹歌舞 ”的画面。
在这里插入图片描述

大模型通过语言描述直接生成绘画的技术：简单说就是先把自然语言转换为一种AI的内部特征空间表示，然后由模型内部特征表示空间表示转换为图像

也就是由A -->内部特征 -->B的过程，而内部特征是统一的，如此一来，大模型不仅可以实现语言描述转换为图片，也可以实现图片描述转换为文字（看图写作），也可以实现图片转换为音频。

这也就是所谓的多模态，因为AI的中间特征是一致的，这些特征表示，很大程度上是基于像素关系来实现的。

一个神经网络处理图片，处理的也并不是很深奥的东西，恰恰就是像素之间的关系特征。

一个摄像头2000w像素的手机，拍出来的照片效果要比像素1000w的清晰很多，人们也更容易看清图片中的物体是什么。
在这里插入图片描述
这是因为像素越多，特征（比如色彩，水流细节都属于图像的特征）越丰富，我们所看到的信息就越多，自然而然获取到的信息就多。

相比于水流细节这种特征之外，我们在用人眼观察一张图片时，还会观察一个大致的图像轮廓，然后来判断这张图片中的物体是什么？

我喜欢用下图的例子来说明这个问题
在这里插入图片描述
这张图虽有不清晰，像素点很少，但这并不妨碍我们认出图像中画的是什么，即使你用手挡住图像的下半部分，我们依然可以辨别出来。

这是因为人眼对于图像的识别，是建立在一种图像像素局部性的特征之上的。

因此我们只看一张图片的局部，有时候便可以区分这张图片是什么，甚至把图片上下倒置90度，依然可以辨别。
在这里插入图片描述
这是因为图像关键特征信息还在，没有丢失。

关键特征比如红色的嘴巴，标志性的笑脸，图片经过裁剪或者反转，这些像素依然在局部表达着红色嘴巴和笑脸的特征。

基于这个原理，很多计算机视觉任务，为了保持训练模型的鲁棒，会对输入数据集做一些数据增强的操作，上面说的旋转和裁剪便是数据增强的一些方法。
基于数据增强之后的数据集训练出来的模型，它的鲁棒性更强，因为这个时候你给它一个倒立的哆啦A梦，它也能识别出来。

像素组成了图像，但绝不是一个像素就能组成图像，这个问题很悬，就像是一堆米粒，到底多少颗才能算一堆? 没有定数。

到底多少像素才能表示这是一张图像，也不好说，只要是像素之间可以表达出图像的特征，就可以了。

其实上面说到了图像的两种特征。

一种是很局部的细节，比如我们在PS照片时经常会使用 “ 锐化 ” 这一方法，使图片更加突出边缘细节，从而整体更加清晰。

另一个特征是全局的特征，一般为图像中物体的轮廓，图像中物体的色调等。人眼看这两种特征是不一样的。

看细节特征，我们更加倾向于“ 眯着眼 ”看，此时瞳孔更加聚焦于某一处细节。看全局轮廓，我们更加倾向于“ 瞪大眼 ”看，此时瞳孔会放大，视网膜接收到更多像素光线。

这是人眼观察图像的动作，巧的是，在人们不断摸索计算机视觉算法的过程中，发现一种算法可以近乎完美的模拟人眼看图像的这个过程，那就是卷积。无论是传统计算机视觉中的高斯滤波、均值滤波，还是深度学习中的卷积、池化，大都和此有些联系。

关注