【转】JPEG压缩原理

最新推荐文章于 2023-04-19 11:15:37 发布

安于当下

最新推荐文章于 2023-04-19 11:15:37 发布

阅读量831

点赞数

分类专栏：图像处理文章标签：图像处理图像压缩

图像处理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

第一章图像压缩编码的综述

1.1 图象压缩的目的和方法

图象的数字化表示使得图象信号可以高质量地传输，并便于图像的检索、分析、处理和存储。但是数字图像的表示需要大量的数据，必须进行数据的压缩。即使采用多种方法对数据进行了压缩，其数据量仍然巨大，对传输介质、传输方法和存储介质的要求较高。因此图象压缩编码技术的研究显得特别有意义，也正是由于图象压缩编码技术及传输技术的不断发展、更新，推动了现代多媒体技术应用的迅速发展。

1.1.1 图象压缩的目的

图象采样后，如果对之进行简单的8bit量化和PCM编码，其数据量是巨大的。以CIF（Common Intermediate Format）格式的彩色视频信号为例，若采样速率为25帧/秒，采样样点的Y、U、V分量均为8bit量化，则一秒钟的数据量为：

352×288×3×8×25＝60.83Mbit

要传输或存储这样大的数据量是非常困难的，必需对其进行压缩编码，在满足实际需要的前提下，尽量减少要传输或存储的数据量。

虽然数字图象的数据量巨大，但图象数据是高度相关的。一幅图象的内部相邻象素之间，相邻行之间的视频序列中相邻图象之间有大量冗余信息—空间相关性和时间相关性，可以使用各种方法尽量去除这些冗余信息，减少图象的数据量。

除了时间冗余和空间冗余外，在一般的图象数据中还存在信息熵冗余、结构冗余、知识冗余和视觉冗余。各种冗余就是压缩图象数据的出发点。图象编码的目的就在于采用各种方法去除冗余，以尽量少的数据量来表示个重建图象。

1.1.2图象压缩的几种方法

1.统计和字典的压缩方法

常规程序和计算机熵的数据对于那些基于利用统计变种的压缩，效果很好，这些统计变种表现在单个符号的频率以及符号或短语字符串的频率等方面，而基于字典的系统实际山就是假扮统计程序。可是遗憾的是，这类压缩对于连续色调图象的作用并不很好。

这些程序的主要问题产生于这样的一个事实：照片图象的象素广泛地分布在整个范围。如果将图象中的彩色用频率分布画出，那么频率分布图中，没有我们在统计压缩的成功的情况下所看到的“尖峰”状，实际上，如果延长这个分布图，那么从类似于电视那样的生活图象源中得出的分布图会趋于平展。这意味着，每个象素代码彼此是大约相同的出现机会，决定不存在挖掘熵差的任何机会。

基于字典的压缩程序的运行也有类似的问题，基于扫描照片的图象决定没有任何类型的数据特征以产生相同的短语的多次出现。例如，一个栅格化的图象，类似房子墙边的垂直部分，在图片的许多连续的行中可能可以给出相似的字符串。但不幸的是，由于真实世界是变化多端的，每行中的相同的性能将彼此地略有不同，对于20个象素的一个字符串，其中的一两个象素会因扫描而彼此出现一步长的变化，虽然这些不同点小到人眼不能探测或对人眼不起作用，但他们毕竟妨碍了基于字典压缩的工作，对于这类压缩方法来说，字符串必须严格匹配，由于小的变化，而使匹配的字符串长度趋于很小，这就限制了压缩的效率。

2.有损压缩

类似于音频数据，图形图象也同样有一个比常规计算机数据文件优越的地方：在压缩/扩展的循环中，他们可以被略微改动，而不会影响用户的立即质量。如果仔细修改，那么各处象素的精确灰度可以完全不被注意地进行小的改变。由于计算机栅的图形图象通常来自对真实世界源的扫描，所有他们通常表达一个已经不完美的照片的表达或是不完美的其他打印接着的表达。没有改变图象基本性能的有损压缩程序应该是可行的。

假设图形图象的有损压缩是可能的，那么它是如何实现的呢？研究人员最初试验了用于语音信号的同样的技术，如差分编码和自适应编码，虽然这些技术对图象有帮助，但并没有达到所希望的那么好，原因之一是音频数据和视频数据根本不同。

用常规格式采样的音频数据是趋于反复的，声音，包括讲话，是由每次几秒的重复的正弦波组成的。虽然计算机上DAC的输入流可能由许多不同的频率叠加在一起而成，但是正弦波通常产生反复的波形。

音频反复的本性自然使他利于压缩，线性预言编码和自适应差分脉冲编码调制等技术就利于了这一点，因此将音频数据流压缩了50％到95％。

但开始研究图形压缩时，人们也试图用相似的技术压缩数字化的图象，取得了一些成功。最初，研究人员进行栅格化数据流的压缩，如显示在电视机栅的数据。

图形数据栅格化时，图形显示成一个象素流，每次一行地显示在屏幕上，从左到右，从上到下。这样，当完成一行时，图片的一个细片就画出了，直到整个屏幕填满。数字化时，象素可以使用从1位到24位，如今的琢磨图形常常使用8位来定义一个象素。

3.差分调制

差分调制依赖余模拟数据趋于“平缓”

的变化，信号幅度撒谎那个的大的跳变是例外，而不是常规。在音频数据中，只要信号的采样率一定程度地高于信息本身的最大的频率分量，那么大的跳变就不会产生。

音频信号的差分调制通过编码一个样点与前一个样点的不同来利用这一个特点。例如，如果单频样点位8位，差分编码系统可能用4位来编码样点之差，这就将输入数据压缩了50％。这种压缩方法中所产生的损失是来自于：使用标准的差分方法不可能总是精确地编码。信号的增长可能快于比编码的允许，或者，编码可能太粗而不能容纳下的差别，差分编码的有损性可以很好的处理，以产生出好的信号。

当压缩图形数据时，差分调制有很多问题。首先，图形中的象素依赖于平缓的增加或减少时不可靠的，一幅图中不同的分量间的明显界限时常有的事情。这意味着，使用差分编码的系统需要接受样点间的大的不同和小的不同。这就限制了压缩的效率。带有数据长结构的许多图象可以压缩的很好。长结构中的象素，彼此之间没有什么差别或差别很少；但时，带有突变部分的那些图象不可能压缩的很好。

通常，图形图象的差分的编码似乎不产生非常强于最好的无损算法的压缩结果，他当然也不会产生所需要的、对压缩的数量级上的改进。

4.自适应编码

自适应编码（常常于差分编码一同使用）根据前面看到的一些象素而对将要到来的一些象素的信息做预言。例如，如果一幅灰度级照片中的最新的十个象素的值都在45到50之间，那么自适应压缩系统可能预言，下一个象素很大可能也在这个范围中，之后，类似于霍夫曼或算术编码那样的基于熵的编码方案可能给将来到来的各种代码赋以概率值。可以代替地使用压缩－扩展方法，将最细的粒度赋给最接近预言猜测的范围。

第二章 JPEG压缩编码介绍

在介绍图象的压缩编码之前，先考虑一个问题：为什么要压缩？其实这个问题不用我回答，你也能想得到。因为图象信息的数据量实在是太惊人了。举一个例子就明白了，一张A4(210mm*297mm) 幅面的照片，若用中等分辨率（300dpi）的扫描仪按真彩扫描，其数据量为多少？让我们来计算一下：共有(300*210/25.4)*（300*297/25.4）个像素，每个像素占3个字节,其数据量为26M字节，其数据量之大可见一斑了。

如今在Internet上，传统基于字符界面的应用逐渐被能够浏览图象信息的WWW(World Wide Web)方式所取代。WWW尽管漂亮，但是也带来了一个问题：图象信息的数据量太大了，本来就已经非常紧张的网络带宽变得更加不堪重负，使得World Wide Web变成了World Wide Wait。

总之，大数据量的图象信息会给存储器的存储容量，通信干线信道的带宽，以及计算机的处理速度增加极大的压力。单纯靠增加存储器容量，提高信道带宽以及计算机的处理速度等方法来解决这个问题是不现实的，这时就要考虑压缩。压缩的理论基础是信息论。从信息论的角度来看，压缩就是去掉信息中的冗余，即保留不确定的信息，去掉确定的信息（可推知的），也就是用一种更接近信息本质的描述来代替原有冗余的描述。这个本质的东西就是信息量（即不确定因素）。

压缩可分为两大类，第一类压缩过程是可逆的，也就是说，从压缩后的图象能够完全恢复出原来的图象，信息没有任何丢失，称为无损压缩；第二类压缩过程是不可逆的，无法完全恢复出原图象，信息有一定的丢失，成为有损压缩。选择哪一类压缩，要折中考虑，尽管我们希望能够无损压缩，但是通常有损压缩的压缩比（即原图象占的字节数与压缩后图象占的字节数之比，压缩比越大，说明压缩效率越高）比无损压缩的高。

图象压缩一般是通过改变图象的表示方式来达到，因此压缩和编码是分不开的。图象压缩的主要应用是图象信息的传输和存储，可广泛地应用于广播电视，电视会议，计算机通讯，传真，多媒体系统，医学图象，卫星图象等领域。

压缩编码的方法有很多，主要分成以下4大类：1.像素编码；2.预测编码；3.变换编码；4.其它方法。

所谓像素编码是指，编码时对每个像素单独处理，不考虑像素之间的相关性。在像素编码中常用的几种方法有：1.脉冲编码调制（Pulse Code Modulation，PCM）;2.熵编码（Entropy Coding）；3.行程编码(Run Length Coding)；4.位平面编码（Bit Plane Coding）。这里面，我们要介绍的是熵编码中的哈夫曼(Huffman)编码，行程编码（以读取.PCX文件为例）。

所谓预测编码是指，去掉相邻像素之间的相关性和冗余性，只对新的信息进行编码。举个简单的例子，因为像素的灰度是连续的，所以在一片区域中，相邻像素之间灰度值的差别可能很小。如果我们只记录第一个像素的灰度，其它像素的灰度都用它与前一个像素灰度之差来表示，就能起到压缩的目的。如248，2，1，0，1，3，实际上这6个像素的灰度是248，250，251，251，252，255。表示250需要8个比特，而表示2只需要两个比特，这样就实现了压缩。

常用的预测编码有Δ调制（Delta Modulation，简称DM）；微分预测编码(Differential Pulse Code Modulation，DPCM)，具体的细节，我们就不详述了。

所谓变换编码是指，将给定的图象变换到另一个数据域（如频域）上，使得大量的信息能用较少的数据来表示，从而达到压缩的目的。变换编码有很多，如1.离散傅立叶变换(Discrete Fourier Transform，DFT)；2.离散余弦变换(Discrete Cosine Transform，DCT)；3.离散哈达玛变换(Discrete Hadamard Transform，DHT)。

其它的编码方法也有很多，如混合编码（Hybird Coding），矢量量化(Vector Quantize，VQ)，LZW算法。在这里，我们只介绍LZW算法的大体思想。

值得注意的是，近些年来出现了很多新的压缩编码方法，如使用人工神经元网络(Artificial Neural Network，ANN)的压缩编码算法；分形（Fractl）；小波(Wavelet)；基于对象（Object -Based）的压缩编码算法；基于模型（Model -Based）的压缩编码算法(应用在MPEG4及未来的视频压缩编码标准中)。这些都超出了本讲座的范围。

一.JPEG压缩分四个步骤实现：
      1.颜色模式转换及采样；
      2.DCT变换；
      3.量化；
      4.编码。
    二.
      1．颜色模式转换及采样

RGB色彩系统是我们最常用的表示颜色的方式。JPEG采用的是YCbCr色彩系统。想要用JPEG基本压缩法处理全彩色图像，得先把RGB颜色模式图像数据，转换为YCbCr颜色模式的数据。Y代表亮度，Cb和Cr则代表色度、饱和度。通过下列计算公式可完成数据转换。 Y=0.2990R+0.5870G+0.1140B Cb=-0.1687R-0.3313G+0.5000B+128 Cr=0.5000R-0.4187G-0.0813B＋128 人类的眼晴对低频的数据比对高频的数据具有更高的敏感度，事实上，人类的眼睛对亮度的改变也比对色彩的改变要敏感得多，也就是说Y成份的数据是比较重要的。既然Cb成份和Cr成份的数据比较相对不重要，就可以只取部分数据来处理。以增加压缩的比例。JPEG通常有两种采样方式：YUV411和YUV422，它们所代表的意义是Y、Cb和Cr三个成份的数据取样比例。

      2.DCT变换 DCT变换的全称是离散余弦变换(Discrete Cosine Transform)，是指将一组光强数据转换成频率数据，以便得知强度变化的情形。若对高频的数据做些修饰，再转回原来形式的数据时，显然与原始数据有些差异，但是人类的眼睛却是不容易辨认出来。压缩时，将原始图像数据分成8*8数据单元矩阵。JPEG将整个亮度矩阵与色度Cb矩阵，饱和度Cr矩阵，视为一个基本单元称作MCU。每个MCU所包含的矩阵数量不得超过10个。例如，行和列采样的比例皆为4:2:2，则每个MCU将包含四个亮度矩阵，一个色度矩阵及一个饱和度矩阵。当图像数据分成一个8*8矩阵后，还必须将每个数值减去128，然后一一代入DCT变换公式中，即可达到DCT变换的目的。图像数据值必须减去128，是因为DCT变换公式所接受的数字范围是在-128到+127之间。

      3、量化图像数据转换为频率系数后，还得接受一项量化程序，才能进入编码阶段。量化阶段需要两个8*8矩阵数据，一个是专门处理亮度的频率系数，另一个则是针对色度的频率系数，将频率系数除以量化矩阵的值，取得与商数最近的整数，即完成量化。当频率系数经过量化后，将频率系数由浮点数转变为整数，这才便于执行最后的编码。不过，经过量化阶段后，所有数据只保留整数近似值，也就再度损失了一些数据内容。

      4、编码 Huffman编码无专利权问题，成为JPEG最常用的编码方式，Huffman编码通常是以完整的MCU来进行的。编码时，每个矩阵数据的DC值与63个AC值，将分别使用不同的Huffman编码表，而亮度与色度也需要不同的Huffman编码表，所以一共需要四个编码表，才能顺利地完成JPEG编码工作。 DC编码 DC是彩采用差值脉冲编码调制的差值编码法，也就是在同一个图像分量中取得每个DC值与前一个DC值的差值来编码。DC采用差值脉冲编码的主要原因是由于在连续色调的图像中，其差值多半比原值小，对差值进行编码所需的位数，会比对原值进行编码所需的位数少许多。例如差值为5，它的二进制表示值为101，如果差值为-5，则先改为正整数5，再将其二进制转换成1的补数即可。所谓1的补数，就是将每个Bit若值为0，便改成1；Bit为1，则变成0。差值5应保留的位数为3，下表即列出差值所应保留的Bit数与差值内容的对照。
在差值前端另外加入一些差值的霍夫曼码值，例如亮度差值为5（101）的位数为3，则霍夫曼码值应该是100，两者连接在一起即为100101。下列两份表格分别是亮度和色度DC差值的编码表。根据这两份表格内容，即可为DC差值加上霍夫曼码值，完成DC的编码工作。

      5、AC编码 AC编码方式与DC略有不同，在AC编码之前，首先得将63个AC值按Zig-zag排序，即按照下图箭头所指示的顺序串联起来。 63个AC值排列好的，将AC系数转换成中间符号，中间符号表示为RRRR/SSSS，RRRR是指第非零的AC之前，其值为0的AC个数，SSSS是指AC值所需的位数，AC系数的范围与SSSS的对应关系与DC差值Bits数与差值内容对照表相似。如果连续为0的AC个数大于15，则用15/0来表示连续的16个0，15/0称为ZRL（Zero Rum Length），而（0/0）称为EOB（Enel of Block）用来表示其后所剩余的AC系数皆等于0，以中间符号值作为索引值，从相应的AC编码表中找出适当的霍夫曼码值，再与AC值相连即可。例如某一组亮度的中间符为5/3，AC值为4，首先以5/3为索引值，从亮度AC的Huffman编码表中找到1111111110011110霍夫曼码值，于是加上原来100（4）即是用来取[5，4]的Huffman编码1111111110011110100，[5，4]表示AC值为4的前面有5个零。由于亮度AC，色度AC霍夫曼编码表比较长，在此省略去，有兴趣者可参阅相关书籍。实现上述四个步骤，即完成一幅图像的JPEG压缩。

安于当下

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【转】JPEG压缩原理

第一章图像压缩编码的综述 1.1 图象压缩的目的和方法图象的数字化表示使得图象信号可以高质量地传输，并便于图像的检索、分析、处理和存储。但是数字图像的表示需要大量的数据，必须进行数据的压缩。即使采用多种方法对数据进行了压缩，其数据量仍然巨大，对传输介质、传输方法和存储介质的要求较高。因此图象压缩编码技术的研究显得特别有意义，也正是由于图
复制链接

扫一扫