理解JEPG原理
JEPG不是一种文件格式,而是一类图像压缩算法.
1.彩色图像
灰度图像
灰度,一个pixel取值0-255.
彩色图像
需要比灰度图像更多的存储空间, 事实上, 所有颜色都可以用红绿蓝三原色的组合表示, 彩色图像可用RGB三通道表示.
YCbCr
研究发现对于图像压缩, RGB的表示不是最佳的.
人脑对亮度(luminance)和色差(chrominance)的微小变化不敏感. YCbCr用一层亮度和两层色差表示RGB图像. Y是亮度通道, Cb和Cr是色差通道.
RGB转YCbCr是这样定义的,对一个 (r,g,b) ( r , g , b ) 元组, 先归一化 (r′,g′,b′)=(r/255,g/255,b/255) ( r ′ , g ′ , b ′ ) = ( r / 255 , g / 255 , b / 255 ) .
通过一下公式得到亮度值 y: y :
色差通道通过计算red和blue两颜色通道和参照通道 y y 的差得到:
1.772和1.402做分母使Cb和Cr都落在区间 [−1/2,1/2] [ − 1 / 2 , 1 / 2 ] .
最后一步, 为了显示将三通道缩放到 [0,255] [ 0 , 255 ] ,并取整:
2.JPEG算法
JPEG不是一种文件格式,而是一类图像压缩算法, 下面我介绍的是JPEG2000,最基础的算法,可以帮助理解整个过程.
首先说一下怎么理解图像压缩, 以huffman编码为例, 对图像每个byte做频率统计, 构造huffman树重新编码, 以减小编码长度. 但是, 直接对图像做huffman编码的压缩并不好, 因为需要对256个像素值都编码, 码长不会显著减小.
如果能将图像变换到一个含有比较少的不同值的空间中, huffman编码效果将会显著提升. 这就是jpeg的核心思想.
2.1 预处理
先将RGB转成YCbCr, 然后把这三层当作灰度图像看就行, 操作是一样的.
然后, 将图像切割成一堆 8×8 8 × 8 的块.
所有操作都是独立对这样每一个 8×8 8 × 8 的小块做的.
2.2 DCT变换
考虑一个 8×8 8 × 8 的块, 这个块在原图像中所占的比例是非常小的, 在大部分情况下, 这个块中pixel数值变化是很平滑的. 打个比方,一个块正好罩在一面墙壁上, 这块的pixel值在79-81之间变化, 若要用cos函数的组合去拟合这段离散的数值, 这些函数的频率会很高.
这些变化也被称为高频信息, 而人眼对高频信息不敏感, 对低频信息比较敏感. 如果一个块罩在墙和背景交界的地方, 块的pixel数值会出现不平滑的变化,跨度很大, 这时要用函数组合去拟合这段离散数值时, 就会出现低频.
因此, 再结合图像压缩的核心思想, 用较少的不同数值来表示图像, 就需要找到一种变换, 将图像高频的信息和低频的信息区分开来, 并将人眼不敏感的低频信息映射到接近或等于0.
JPEG用的就是DCT(Discrete Cosine Transformation), 下面就是DCT矩阵, 任何 8×8 8 × 8 块都可以用DCT矩阵表示.