1.Prediction简介
在传输能力和存储能力有限的情况下,对流媒体和存储视频的需求越来越大。这差异是研究高压缩效率的视频编码技术的驱动力之一。
在这方面的一个基准是最先进的高效视频编码(HEVC)标准,它使用基于块的架构。对于每个块,使用预测编码。因此,当一个视频信号的接收器想要重建通过使用已有的信息,对给定块传输的视频内容进行预测信号。
对于每个块,使用预测编码。因此,当一个视频信号的接收器想要重建通过使用已有的信息,对给定块传输的视频内容进行预测信号。预测信号作为待重构视频信号的第一近似。在第二步中,在预测信号中加入预测残差,生成重构的视频信号。
产生预测信号的方法有两种:图像帧间预测和图像帧内预测,我们今天主要谈论帧内预测。基于data-driven神经网络的方法对码率带来了较大降低。
2.DESIGN OF THE INTRA PREDICTION MODES
2.1 Generation of the proposed prediction signal
我们设计的预测执行以下两个关键步骤。首先,从解码后的图像中提取一组特征样本。其次,利用这些特征来选择一种仿射线性组合的预定义图像模式作为预测的信号。
该文提出的神经网络首先从重构样本𝑟中提取特征向量𝑓𝑡𝑟,如下所示。如果d0 = K * (N+M+K)表示𝑟的样本数,则将𝑟视为d0维实向量空间中的一个向量。为固定方阵𝐴1和𝐴2具有d0行方阵。对于固定的d0维偏置向量b1和b2:
首先计算
t
1
=
ρ
(
A
1
×
r
+
b
1
)
t1=\rho(A_1\times r+b_1)
t1=ρ(A1×r+b1)
函数
ρ
\rho
ρ代表:
ρ
0
(
v
)
i
=
{
v
i
,
i
f
v
i
>
0
e
x
p
(
v
i
)
−
1
else
\rho_0(v)_i= \begin{cases} v_i& & {,if v_i >0}\\ exp(v_i)-1& \text{else} \end{cases}
ρ0(v)i={viexp(vi)−1else,ifvi>0
再次计算
t
2
=
ρ
(
A
2
×
t
1
+
b
2
)
t2=\rho(A_2\times t1+b_2)
t2=ρ(A2×t1+b2)
最后,有一个预定义的矩阵𝐴3,行d0,列d0,还有一个预定义的偏置向量的b3,从而计算出特征向量𝑓𝑡𝑟为:
f
t
r
=
ρ
(
A
3
×
t
2
+
b
3
)
ftr=\rho(A_3\times t2+b_3)
ftr=ρ(A3×t2+b3)
得到特征向量𝑓𝑡𝑟之后,使用仿射线性映射生成最终的预测信号𝑝𝑟𝑒𝑑依赖于位深度的标准剪切操作𝐶𝑙𝑖𝑝。因此,有一个预定义的矩阵A4,𝑘,有M
×
\times
×N行以及d0列和预定义的M
×
\times
×N维偏差向量𝑏4,𝑘,以便进行计算:
p
r
e
d
=
C
l
i
p
(
A
4
,
k
×
f
t
r
+
b
4
,
k
)
pred=Clip(A_{4,k}\times ftr+b_{4,k})
pred=Clip(A4,k×ftr+b4,k)
在这里,𝑘=𝑝𝑟𝑒𝑑𝑚𝑜𝑑𝑒表示预测模式,请参阅下一节。以上产生的预测信号𝑝𝑟𝑒𝑑如下图右侧所示
虽然我们设计了几种内部预测模式,但特征提取,即除最后一层以外的所有操作网络,对于我们提议的所有模式都是一样的。这极大地限制了所需参数的数量,因为对于每个参数我们只需要一组矩阵𝐴1,𝐴2和𝐴3以及偏见向量𝑏1,𝑏2和𝑏3. 同样,在这种方式下,编码器在基于速率失真的搜索中测试我们的几个内模可以节省计算,因为它需要计算特征向量𝑓𝑡𝑟只有一次。
2.2 Signalization of the specific proposed intra mode
实际上,对于不同的block size,我们上节得到预测像素所使用的矩阵是不一样的;所以如果我们用传统方法的帧内预测方法(就是首先选择左方和上方的已编码的mode及经过统计得到的最可能出现的mode,如果没有找到最优mode,则继续访问剩下的mode)是不能够判断的,因为计算率失真的矩阵都不一样。因此,我们利用第二神经网络从已经重建的样本中预测对应的mode,使用这个网络中,在给定重建样本的情况下,计算每个模态的条件概率,并根据它们的概率,选择最可能的模式来表示,并且这是完全平行的上述HEVC内预测模式的过程。
从索引𝑝𝑟𝑒𝑑𝐼𝑑𝑥中,通过一个含有有一个隐藏层的全连接网络来确定要使用的模式的实际索引𝑝𝑟𝑒𝑑𝑚𝑜𝑑𝑒,输入为重构样本𝑟’在上面的两行大小为N+2以及块左侧大小为M的两列,参见上图。
将重构样本𝑟’展平为2
×
\times
×(M+N+2)维实向量空间中的一个向量。利用一个固定的正方形矩阵A1ʹ有2
×
\times
×(M+N+2)行响应和有一个固定偏置向量b1ʹ在实向量空间尺寸2
×
\times
×(M+N+2)来计算:
t
1
′
=
ρ
(
A
1
′
×
r
′
+
b
1
′
)
t1^{'}=\rho(A_1^{'}\times r^{'}+b_1^{'})
t1′=ρ(A1′×r′+b1′)
然后在经过一次操作得到n个mode的预测概率:
l
g
t
=
A
2
′
×
t
‘
′
+
b
2
′
lgt=A_2^{'}\times t_`^{'}+b_2^{'}
lgt=A2′×t‘′+b2′
我们选取lgt中数值最大所对应的索引作为premode。在这里,如果两个组件(𝑙𝑔𝑡)𝑘和(𝑙𝑔𝑡)l,对k≠𝑙相等,我们采用索引值小的那个。
完整框图如下:
3.可能改进
可以考虑预测频域中的信号,比如预测为DCT-II-transform coefficients,在频域中数据又会得到进一步的压缩,并且在不影响人感知视频质量的情况下,我们可以将某些高频分量置0,这样在矩阵计算中,直接对某一部分直接就可以置零,不需要在进行矩阵计算。
Reference:Neural network based intra prediction for video coding