首先,我假定你已经具有如下基础:
1 了解基本的视频知识,知道什么是YCbCr/YUV;
2 知道基本的视频压缩原理;
如果这两条还不具备,那么,停一下,补一下课。这方面的相关文章在网上一找一大把。
now,你为什么要学习H.264呢?可能你是个在校学生,要写论文,拿着复杂的JM代码无从下手。可能你是个开发人员要往已有的代码里添加一个码率控制算法,但是拿着前人开发的代码又感到一头雾水。无论你具体做什么,对264协议有个比较深的理解还是有必要的。
那先准备好以下几样东西:
1 H.264_MPEG-4 Part 10 White Paper;
2 H.264 Visa 和StreamEye;
这是两个码流分析软件,前者有免费版本,后者有个免费版,屏蔽了一些功能,但是对初学者,足够了。
3 码流。你可以随便去下两个,很多地方都可以下到的。
4 matlab
你可能注意到,我提供的清单里没有H.264协议,没有JM代码,为什么?因为这两样东西,太复杂,不合适初学者。即使现在,我看到H.264协议原本都还觉得复杂,JM代码更是没有怎么看过。 这两样东西,不到做具体开发的时候没有必要去详细地研究。
那么,如何理解H.264协议呢。 容易,我们可以手工完成一个264码流的解码过程,相信我,你如果专心,最多花30小时,就能基本完成这个过程。
264协议,其实也使用了与以前的协议类似的方法,但在各个环节中,都加入了不少的改进而已。
下面先简要说明一下各个模块的要点。
1 帧内预测。
这是个新概念,但其实就是使用相邻的块来预测当前块。我们先只考虑4x4亮度块的例子。
使用H.264 Visa打开一个码流文件。从第一帧第一块开始(无疑,是个I块)。然后一个小块一个小块地做预测。需要注意的是,预测一个小块,就重建一个小块。重建你只需要把预测值加上残差就可以了。你可以使用matlab来帮你完成这个过程。残差值,现在先直接使用就可以,不必残差是如何来的。重建后的小块就可以作为进一步预测的参考块了。注意,要使用pre-loopfilter的数据。
2 帧间预测。
请先用264Visa 和StreamEye打开码流,查看第一个P帧(通常是第2帧)。
树状的块结构层次。你可以用StreamEye查看一下,能很容易地看到各个宏块的结构类型。
Mv。你可以在H.264 Visa中查看一下,看看每个part的Mv是多少,注意,因为运动矢量是以1/4像素为单位的,所以(4,8),实际代表偏移了(1,2)个像素。然后可以根据Mv到上一帧找一下参考块的位置,然后比较一下参考块和预测块,看看两者是否近似(非整点情况)或相同(整点情况,比如Mv= (4,4))。
Mv的预测。找到当前块的A、B、C块,然后预测一下Mv,再看实际的Mv是多少。
自己根据Mv,找到参考块。再在matlab中写个插值程序,应该可以插出正确的值。
注意,做这个练习,应该在第一个P帧中来做,如果到第二个P帧中做,因为涉及多参考帧的问题,找参考帧会比较麻烦。
3 变换量化。264中变换量化已经合在一起了,白皮书上已经有详细说明。可以自己用matlab来算一下白皮书上的题目,再在码流中找一个块,做下反量化反变换,最后看看结果,和H.264 Visa的结果比一下。
4 CAVLC。
没什么可说的,理解一下CA,然后知道其实就是个改进了的Run-level编码就可以。
5 Deblocking
理解一下Bs,理解一下阈值。注意,当梯度小于阈值时才做加权,为什么?
在H.264 Visa中比较一下pre-loop filter和final的数据。
6 码流结构和语法。
用StreamEye可以查看码流及其分析结果。
有了这两个码流分析工具,再结合白皮书,应该很快能掌握I块,P块的重建方法,并能熟悉码流结构。
JM代码太复杂,没必要在这个阶段看。协议,更烦琐,不做完整开发的话也没必要看了。可以看看市面上的相关的参考书。