h.264 率失真优化

最新推荐文章于 2023-07-28 17:39:13 发布

markman101

最新推荐文章于 2023-07-28 17:39:13 发布

阅读量2.2k

点赞数 1

文章标签： h.264 优化 matrix c

X264-H.264 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

在H.264中率失真优化有很重要的作用。
RDO对应的公式：J(mode)＝SSD＋λ*R(ref,mode,mv,residual)
SSD是指重建块与源图像的差值均方和；λ是拉格朗日乘子；
R就是该模式下宏块编码的实际码流，包括对参考帧、模式、运动矢量、残差等的比特率。
当然如果是帧内模式，就只有R(mode,residual)。
但是因为SSD需要重建图像，必然涉及到变换量化、熵编码、反变换反量化、重建等，计算量是相当大的
所以出现替代公式：
J(mode)＝SAD＋λ*R(ref,mode,mv)

J(mode)＝SATD＋λ*R(ref,mode,mv)
SAD就是该模式下预测块与源图像的绝对误差和。
SATD:残差经哈德曼变换的4×4块的预测残差绝对值总和,所以satd也在一定程度上反应了残差比特率。因此在替代公式R计算时也忽略了residual。

for (j=0;j<16;j)
 {
 for (i=0;i<16;i)
 {
 M1[ i ][j]=imgY_org[img->opix_y+j][img->opix_x+i]-img->mprr_2[k][j][ i ]; 计算当前宏块残差块
 M0[i%4][i/4][j%4][j/4]=M1[ i ][j];
 }
 }
 current_intra_sad_2=0; // no SAD start handicap here
 for (jj=0;jj<4;jj)
 {
 for (ii=0;ii<4;ii)
 {
 for (j=0;j<4;j) 第一次一维Hadamard变换
 {
 M3[0]=M0[0][ii][j][jj]+M0[3][ii][j][jj];
 M3[1]=M0[1][ii][j][jj]+M0[2][ii][j][jj];
 M3[2]=M0[1][ii][j][jj]-M0[2][ii][j][jj];
 M3[3]=M0[0][ii][j][jj]-M0[3][ii][j][jj];

 M0[0][ii][j][jj]=M3[0]+M3[1];
 M0[2][ii][j][jj]=M3[0]-M3[1];
 M0[1][ii][j][jj]=M3[2]+M3[3];
 M0[3][ii][j][jj]=M3[3]-M3[2];
 }

 for (i=0;i<4;i)
 {
 M3[0]=M0[ i ][ii][0][jj]+M0[ i ][ii][3][jj];
 M3[1]=M0[ i ][ii][1][jj]+M0[ i ][ii][2][jj];
 M3[2]=M0[ i ][ii][1][jj]-M0[ i ][ii][2][jj];
 M3[3]=M0[ i ][ii][0][jj]-M0[ i ][ii][3][jj];
 第二次一维Hadamard变换
 M0[ i ][ii][0][jj]=M3[0]+M3[1];
 M0[ i ][ii][2][jj]=M3[0]-M3[1];
 M0[ i ][ii][1][jj]=M3[2]+M3[3];
 M0[ i ][ii][3][jj]=M3[3]-M3[2];
 for (j=0;j<4;j)
 if ((i+j)!=0)
 current_intra_sad_2 += abs(M0[ i ][ii][j][jj]); 变换后的AC残差值取绝对值求和作为代价
 }
 }
 }

 for (j=0;j<4;j)
 for (i=0;i<4;i)
 M4[ i ][j]=M0[0][ i ][0][j]/4;

 // Hadamard of DC koeff
 for (j=0;j<4;j) 后面两个for循环对当前宏块的DC残差进行Hadamard变换并将变换后的值取绝对值 求和作为代价
 {
 M3[0]=M4[0][j]+M4[3][j];
 M3[1]=M4[1][j]+M4[2][j];
 M3[2]=M4[1][j]-M4[2][j];
 M3[3]=M4[0][j]-M4[3][j];

 M4[0][j]=M3[0]+M3[1];
 M4[2][j]=M3[0]-M3[1];
 M4[1][j]=M3[2]+M3[3];
 M4[3][j]=M3[3]-M3[2];
 }

 for (i=0;i<4;i)
 {
 M3[0]=M4[ i ][0]+M4[ i ][3];
 M3[1]=M4[ i ][1]+M4[ i ][2];
 M3[2]=M4[ i ][1]-M4[ i ][2];
 M3[3]=M4[ i ][0]-M4[ i ][3];

 M4[ i ][0]=M3[0]+M3[1];
 M4[ i ][2]=M3[0]-M3[1];
 M4[ i ][1]=M3[2]+M3[3];
 M4[ i ][3]=M3[3]-M3[2];

 for (j=0;j<4;j)
 current_intra_sad_2 += abs(M4[ i ][j]);
 }
 if(current_intra_sad_2 < best_intra_sad2)
 {
 best_intra_sad2=current_intra_sad_2;
 *intra_mode = k; // update best intra mode

 }
}
 }
 best_intra_sad2 = best_intra_sad2/2;

 return best_intra_sad2;
}

以上是源程序里的一段，intra_16*16并不是计算SAD 值，而是计算SATD。
其中M1中放的是宏块的残差，M0也是，不过为了下面计算HADAMARD变换方便，他表示成M0[4][4][4][4]的形式，前2个[4][4]表示8X8块坐标，后2个[4][4]表示一个8X8里的4X4块坐标。
程序先对残差进行HADAMARD变换，然后把所有的DC分量提出来，再对DC分量做HADAMARD变换，
最后得到的是SATD。
有两点不明白，谁知道的解释一下：
1 在提取DC分量时为什么要除以4？
2 最后的best_intra_sad2 为什么要除以2？

这主要是由于SATD变换不是归一化矩阵，变换后的系数值幅值增加，因此要相应的/2和/4

hadamard 变换本身就有一个 /2 的操作，因此每次变换都要对所有系数进行 /2。而 find_sad_16x16 函数执行了两次 hadamard 变换：首先对 256 个系数进行一次，其次对所有 DC 系数再做一次，因此对 DC 系数应该 /4，而对 AC 系数应该 /2。find_sad_16x16 函数中的：M4[ i ][j]=M0[0][ i ][0][j]/4;就是对 DC 系数 /4，而最后的：best_intra_sad2 = best_intra_sad2/2;可以认为是对 AC 系数的变相 /2。但这里相当于是对所有系数 /2，所以 DC 系数多了一次 /2。这个多的一次就不知道原因了。

264乐园群里探讨过这个问题。对于hadamard变换的/2已经有了结论。但是对DC系数多除的那一次2，目前尚未找到根据。
4阶hadamard变换的定义式本身就是包含了这个/2的。可以见http://en.wikipedia.org/wiki/Hadamard_transform 。这里再多解释一点
假设hadamard变换没有/2, 变换矩阵为：
1   1   1   1
1 -1   1 -1
1   1 -1 -1
1 -1 -1   1
这时对一个列向量v = (1, 1, 1, 1)'做变换，即用变换矩阵左乘列向量v，得到的变换后向量v' = (4, 0, 0, 0)'。

现在观察v和v'，在欧氏空间中，对一个向量的“大小”的衡量就是其长度，通过计算内积得到。那么
len(v)   = sqrt( 1^2 + 1^2 + 1^2 + 1^2) = 2
len(v') = sqrt( 4^2 + 0^2 + 0^2 + 0^2) = 4
由此可见如果没有那个/2，变换前后，该向量的长度发生了变化。这样的变换是违背正交变换的定义的。

所以，作为正交变换的hadamard变换，必须要有这个/2的归一化。

A:推而广之，整数 DCT 变换在变换前后向量的长度也发生了变化，为什么没有除以 2 呢？

DCT变换（非整数）也是归一化的整数变换也是正交变换，所以也一定会满足归一化的。firstime是不是忘记把scaling matrix考虑进来了啊。

按照毕厚杰书上 113 页，变换矩阵为公式 6.15（这个时候 scaling matrix 还没分离出来吧？）：
a   a   a   a
b   c -c -b
a -a -a   a
c -b   b -c
其中 a = 1/2，b = (2/5)^0.5。这个矩阵对列向量v = (1, 1, 1, 1)'做变换前后的向量长度并不相等啊

markman101

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
h.264 率失真优化

 在H.264中率失真优化有很重要的作用。 RDO对应的公式：J(mode)＝SSD＋λ*R(ref,mode,mv,residual) SSD是指重建块与源图像的差值均方和；λ是拉格朗日乘子； R就是该模式下宏块编码的实际码流，包括对参考帧、模式、运动矢量、残差等的比特率。 当然如果是帧内模式，就只有R(mode,residual)。 但是因为SSD需要重建图像，必然涉及到变换量化、熵编码、反变换反量化、重建等，计算量是相当
复制链接

扫一扫