浅析深度学习与计算机视觉

最新推荐文章于 2024-07-18 12:16:07 发布

梦小笙

最新推荐文章于 2024-07-18 12:16:07 发布

阅读量3.2k

点赞数

文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/Meng_sheng/article/details/121717685

版权

第一章深度学习与计算机视觉

1.1 图像基础

在计算机中，图像的最基本组成单元为像素，图片是包含很多像素的集合。像素一般就是图片中某个位置的颜色，很多个像素点排列起来，就可以组成一个二维平面点阵，这就是图像。例如：电脑桌面背景，如果是1920px×1080px的大小，那就意味着有1920×1080（即2073600）个像素：1920列，1080行。通常图像表达会用色彩空间的概念，常见的有RGB、LAB、HSL和灰度等，这里主要介绍RGB和灰度两种，其他的我们之后再慢慢讨论。RGB图像又称为三通道彩色图，灰度图又可以相应的称为单通道图。通道数可以简单理解为表示单个像素所需要的数字的个数。

图像分两类：模拟图像和数字图像。两者之间最大的区别就是像素的值域，模拟图像像素的值域是连续的，是人眼所认识到的；而数字图像像素的取值是离散的、有限的，是计算机所理解的。这里主要讨论的是计算机所认识的图像，即数字图像，也是计算机视觉的主要任务。

在计算机中，灰度图像中的像素通常用0~255之间的一个整数数字表示，0表示黑色，255表示白色，数字从0变到255 表示颜色由黑变白的一个过程。颜色越黑越接近0，颜色越白越接近255。

RGB彩色空间则使用三个整数数字来表示一个像素，如（0，100，200），分别表示红色部分的颜色值是0，绿色部分为100，蓝色部分为200。RGB分别表示英文单词Red，Green，Blue，其对应的取值范围都是0~255，数值越大表示颜色越浅，数值越大则表示越饱和。所以RGB像素不同的组合总数为256×256×256=16777216，其中（0，0，0）表示黑色，（255，255，255）表示白色。

基于以上认识，像素点阵就可以用矩阵来表示，差异就是不同空间表示像素的方法不同。灰度图可以简单的理解为一个二维矩阵，里面填满了0~255间的整数；而彩色图则是三维矩阵，其维度分别代表高、宽和通道数。