视频编码
文章平均质量分 77
Dillon2015
从事视频编码的相关研究。
邮箱:13141211944@163.com
展开
-
AV1帧间预测(二):运动补偿
仿射运动只对8x8及以上的块才能使用,对于大于8x8的块首先将其划分为8x8子块,对每个8x8子块的中心坐标通过平移运动因子(h13,h23)计算在参考图像中对应的坐标,如同4中当前块中心(x0,y0)在参考图像中对应的坐标为(x1,y1),块中其他像素(x,y)以(x1,y1)为中心进行旋转和缩放得到仿射变换后的坐标(x',y'),对于8x8的块插值,首先利用15x15区域内的像素使用水平插值生成15x8的中间结果,然后在中间结果上使用垂直插值生成8x8块。三种滤波器对应的半像素插值的滤波系数如下,原创 2024-07-30 23:50:27 · 1064 阅读 · 0 评论 -
AV1:帧内预测(一)
CfL过程如图4,首先对于420或422视频格式需要将重建的亮度分量下采样到和色度同样的大小,然后需要去除亮度中的DC信息只保留AC信息,其中DC信息即亮度像素的均值,将亮度重建值减去它们的均值即可得到对应的AC信息。对于RIP模式,如图3(a)它首先将块划分为互不重叠的4x2块,然后依次计算每个4x2块的预测值,当前4x2块的预测值可用作其他4x2块做参考。RIP是AV1中新提出的帧内预测模式,它的预测不仅利用了当前块相邻行/列的信息,还利用了块内部的像素信息。:包含U和V的alpha的符号信息。原创 2024-03-19 22:28:38 · 1913 阅读 · 0 评论 -
DCC2023:基于梯度线性模型的帧内色度预测
对于YUV420格式的视频,需要先将亮度分量使用低通滤波器下采样到和色度分量同样的分辨率,然后使用线性模型计算色度的预测值。表1是2-parmeter GLM的实验结果,表2是3-parmeter GLM的实验结果,对比表1和表2可以发现3-parmeter GLM在屏幕内容上表现更好。CCLM计算模型参数使用1行/列重建像素,为了增加模型的鲁棒性,3-parmeter GLM在计算模型参数时使用6行/列重建像素。2参数GLM和CCLM的结构一样,唯一的区别是使用的下采样滤波器不同。原创 2023-12-21 20:29:09 · 2051 阅读 · 0 评论 -
AVS3:双向梯度修正BGC
其中,BigFlag和BigIdx为码流中传输的两个语法元素。BigFlag表示是否进行修正,BigIdx表示修正的方向,k表示修正强度,固定为3。如果当前CU为skip或direct模式,则BigFlag和BigIdx与其他运动信息一起从相邻块中获取或者从历史信息运动矢量列表中获取,不需要在码流中传输。双向梯度修正(Bi-directional Gradient Correction,BGC)是利用双向参考块间的差值对预测值进行修正的技术。(2)仅对像素数大于等于256的CU使用;原创 2023-11-07 22:53:29 · 2842 阅读 · 0 评论 -
AVS3:双向光流BIO
为了降低复杂度,认为每个簇(cluster)内所有像素有相同的运动矢量,而使用比簇更大的窗(window)可以提高计算得到的运动矢量的准确度。在BIO中,簇的尺寸为4x4,窗的尺寸是6x6,即4x4的簇的运动矢量 是根据以簇为中心窗进行计算得到的。传统的双向预测对两个已重建的块进行加权平均得到当前块的预测值,其中两个已编码的块一个来自于前向参考帧,另一个来自于后向参考帧。通过补偿小的像素区域的位移,BIO可以使用更大的块来编码从而节省码率,达到像素级预测的效果。前向参考帧和后向参考帧分别在当前帧的两侧。原创 2023-10-24 21:40:20 · 3120 阅读 · 0 评论 -
AVS3:DMVR
在双向预测中根据mv0和mv1分别从L0和L1的参考帧中获取预测块,但是需要拷贝的预测块尺寸为(W+7)*(H+7)作为搜索区域,其中W和H分别是块的宽和高。亚像素位置的计算使用整数位置最优位置、其左侧、其右侧、其上方、其下方共五处的模板匹配失真值,估计整数位置最优位置附近的二次失真平面,计算得到失真平面中失真最小的位置作为亚像素位置。对于每个子块,以初始mv0和mv1所对应的位置为中心,开始寻找周围[-2,2]范围内21个位置中前向和后向预测块之间SAD最小的位置。当前块为双向预测块;原创 2023-10-10 22:31:58 · 3595 阅读 · 0 评论 -
AVS3变换:PBT、ST和SBT
AVS3中非0残差子块的大小和位置有8种选择(在码流中传输这些信息),非0残差子块的变换按照子块的位置自适应选择DCT8/DST7变换作为水平变换和垂直变换。每个子块使用不同的变换类型,下表是每个子块对应的水平和垂直变换,1) SBT-V-1型:子块的宽为残差块的宽的1/2,高为残差块的高。2) SBT-V-2型:子块的宽为残差块的宽的1/4,高为残差块的高。3) SBT-H-1型:子块的高为残差块的高的1/2,宽为残差块的宽。4) SBT-H-2型:子块的高为残差块的高的1/4,宽为残差块的宽。原创 2023-08-29 21:05:41 · 4375 阅读 · 0 评论 -
AVS3:跨多通道预测PMC
跨通道预测技术用于去除不同通道间的冗余信息,TSCPM可以去除Y-Cb、Y-Cr通道间的冗余,然而却忽略了Cb-Cr间的冗余,而Cb-Cr间有时却有很强的相关性,因此提出了PMC(Preiction with Multicross Component),PMC利用Y和Cb来预测Cr。首先,图像头传输一个标志位,如果图像头标志位等于0,那么本图像的k为1或2;然后每个使用PMC模式的CU再传输一个标志位,从本图像的两个k值中确定一个。PMC中Cb的预测和TSCPM中一样,Cr的预测需要使用Y和Cb,如图2。原创 2023-08-08 22:00:11 · 4711 阅读 · 0 评论 -
AVS3:角度加权预测AWP
最终预测块由2个预测块加权得到,其中Fp(i,j)是坐标(i,j)处的最终预测值,M(i,j)第一个预测块在坐标(i,j)处的预测值,N(i,j)第二个预测块在坐标(i,j)处的预测值,Pw(i,j)是坐标(i,j)处的权重值。角度加权模式支持的最小块尺寸为8,最大块尺寸为64,共支持8种角度,这8种角度的斜率绝对值共五种,分别是{水平,垂直,1,2,1/2},每个角度支持7种参考权重配置,因此对于每个块而言,角度加权模式的模式数共有56种模式。AWP共支持8种角度,如图4,这8种角度的斜率绝对值共五种,原创 2023-07-04 23:39:13 · 5827 阅读 · 0 评论 -
AVS3:跨分量预测TSCPM
1. 如果当前块的正上侧和正左侧像素均可用,则2个像素点从上侧选择,另外2个像素点从左侧选择(0,-1),(W-max(1,r),-1),(-1,0),(-1,H-max(1,r))。H、W是宽高,r是长宽比。AVS3的TSCPM仅用于intra模式中,类似于VVC中的CCLM。3. 如果当前块只有左侧像素可用,则4个像素点均从正左侧选择,选择的位置为高度的:0/4,1/4,2/4,3/4。2. 如果当前块只有上侧可用,则4个像素点均从正上侧选择,选择的位置宽度为:0/4,1/4,2/4,3/4。原创 2023-06-06 21:53:17 · 6269 阅读 · 0 评论 -
视频编码测试平台CodecWar
在视频编码的研究和开发中,我们经常需要对编码器的性能进行比较,一般的做法是构建一个数据集,然后将两个编码器在同一个配置上(LD,RA,AI等)使用不同参数(CQP下一般为4个QP值)编码,然后收集编码结果(码率、PSNR等),最后计算BD-Rate从而评价编码器性能。比如我要对比HEVC和AVS3在LD配置下的性能,平台上已经有了两个编码器在一些公共测试集上的数据,我们可以直接比较,平台支持最多同时比较5个编码器。费用主要和计算量有关。其中最主要的是目前还不支持上传自己的编码器,只能用平台提供的编码器。原创 2023-05-16 22:07:16 · 6748 阅读 · 1 评论 -
AVS3:对称运动矢量差SMVD
若当前编码块采用帧间双向预测,并且第一个前向参考帧(记为POC_list0)、第一个后向参考帧(记为POC_list1)和当前帧(记为POC_Cur)满足镜像关系(即满足公式:POC_Cur – POC_list0 = POC_list1 – POC_Cur),则通过传输一个标识符(symmetric mode flag)指示是否采用SMVD模式。对于帧间预测来说,当视频内容较简单时编码残差的比特数可能会较少而编码运动信息的比特数占比可能会变高,此时编码运动信息的码率成为了压缩率的瓶颈。原创 2023-05-09 21:34:29 · 6594 阅读 · 1 评论 -
AVS3:高级运动向量表达UMVE
如图1所示,UMVE首先在已生成的候选中选择起始点,然后选择一个偏移方向,在这个方向上按一定距离偏移。UMVE的可选的起始点有2个,偏移方向有4个(上下左右),偏移距离五选一或八选一,由图像头中标识位决定,如下表所示。所以有2x4x5=40或2x4x8=64个候选项。两个起始点从已生成的候选集中选取,候选集由空域相邻块MV块构成,若不足两个则添加时域MV,若还是不足两个则用零向量填充。其中空域候选MV按F、G、C、A、D的顺序获取,如图2所示。UMVE是在已生成的运动候选基础上做偏移从而得到更优的候选集。原创 2023-03-28 22:08:28 · 7253 阅读 · 0 评论 -
AVS3中的ESAO
ESAO是在整帧的层面是对所有像素进行分类,然后对每一类像素分别传输一个偏移量进行偏移补偿,偏移量在[-7,7]之间。若周围像素比较当前像素大则cl自加1,若周围像素比较当前像素小则cl自减1。若周围像素比较当前像素大则cl自加1,若周围像素比较当前像素小则cl不变。c2的分类方法类似于SAO的边带补偿的分类方法,将像素按像素值等间隔的分为c2类,c2的大小由编码器决定,c1类的分类方法是将当前像素和相邻8个像素分别比较,分类模板如图1,色度只采用上面c2的分类方法,然后通过查表得到最终类别,原创 2023-03-14 22:48:40 · 7723 阅读 · 0 评论 -
AVS3中ECCSAO
CCSAO的目的在于减少色度的失真,首先将色度像素根据其对应的亮度重建像素进行分类,然后对不同类别生成对应的offset,然后对每个类别的色度像素补偿对应的offset。Fig.6是主观效果对比,(a)(b)是原始图像的Cr分量,(c)(d)是不开ECCSAO,可以看见很多细节都模糊或者丢失了,(e)(f)是开启ECCSAO后的效果可以看见纹理保留的更多。,通过不同通道间的预测来去除通道间的冗余以提升编码效率。根据公式(1)对色度像素分类,其中rl是重建的亮度像素,M是总类别数最大为16,I是对应的分类。原创 2023-02-21 21:39:26 · 9259 阅读 · 0 评论 -
AVS3变换系数编码:SRCC
在基于块的预测变换混合编码框架里,当一个块完成预测、变换和量化后会获得相应的变换系数,在对系数进行熵编码前需要将二维的变换系数先转化为一维,HEVC和AVS2的做法是先将变换块(TU)分成4x4的块,每个4x4的块称为系数组CG,然后对TB内的CG按照反向zig-zag扫描或反向垂直(水平)扫描,CG内的4x4系数按照同样的扫描方式,最终得到一维的变换系数。TU的扫描区域的右下角坐标的x轴坐标(SRx)是最右侧非零系数的x坐标,y轴坐标(SRy)是最下方的非零系数的y坐标,如下图。原创 2023-01-31 22:14:24 · 9103 阅读 · 0 评论 -
AVS3变换之IST和ISTS
IST(Implicit Selected Transform)是AVS3中新增的针对intra块的变换工具,IST对intra块提供了两种可分离的变换核,编码器根据RDO选择最优的变换核,但是对于选中的变换核不在码流中传输其索引,而是将其索引隐藏在非零变换系数的奇偶性中(Parity of the Number of Non-zero Cofficients,PNNC)。解码端统计非零变换系数数量然后按下表得到对应的变换核,如果是偶数就使用DCT-II,如果是奇数则使用DST-VII。原创 2023-01-03 21:49:55 · 9545 阅读 · 2 评论 -
AVS3中的AMVR和EMVR
EMVR将MVR和HMVP的索引绑定,绑定的规则基于这样的假设,离当前越近的MVP和当前的运动越相关。因此,MVR小的索引和MVP大的索引绑定,也即对越近的MVP使用的MV精度越高。当M=N时,如上图(a),MVR的索引0对应MVP的索引(M-1),MVR的索引(N-1)对应MVP的索引(M-N),此时对于MVR的每项HMVP中都有对应的MVP。CU的索引CPMV使用相同的精度。原创 2022-12-27 21:52:19 · 10034 阅读 · 0 评论 -
AVS3中的intra string copy(ISC)
图2右侧部分是EUSP的示例,数字1蓝色边框的是字符串1,字符串1是Evs,它包含12个像素,每个像素都相同,像素值为PvInfoList中的第0个值。数字2黄色边框的是字符串2,它也是Evs,有11个像素,因为它的像素在PvInfoList中不存在,所以加入PvInfoList中。图2左侧图像是FPSP是一个示例,8x8CU被分成两个字符串,数字1红色边框的属于字符串1,字符串1长度为60,SV为(-11,-1)。是(1,0,1,1),1表示和参考像素匹配0表示不匹配,对于不匹配的像素直接编码其像素值。原创 2022-11-29 20:51:26 · 10753 阅读 · 0 评论 -
AVS3帧间预测
据观察,当MV离MVP越近时它是最优的可能性越大,因此对于距离MVP近的MV给予更高的精度,远离MVP的MV给予更低的精度。预测编码类型是指帧间预测的不同预测方式,在AVS1中根据时域预测关系有两种帧类型:P帧和B帧,P帧只能进行前向预测,参考帧的播放顺序必须在当前帧之前,B帧进行双向预测,两个参考帧的播放顺序分别在当前帧之前和之后。AMVR(Adaptive MV Resolution):AVS3支持CU级的AMVR,对于CU在传输MV时其精度可以从1/4,1/2,1,2,4像素精度中选择。原创 2022-11-16 22:05:13 · 11879 阅读 · 0 评论 -
AVS3帧内预测
30种角度模式的分布范围为[-157.5°,60°],模式3到11仅使用上方参考像素,模式25到32仅使用左侧参考像素,模式13到23同时使用上方和左侧参考像素。AVS1支持8种角度模式,如图1(a),对于不同尺寸块使用的角度模式不同,对于4x4的intra块支持所有角度模式,对于8x8的块只能使用水平、垂直和对角线模式,对于8x8的intra块的亮度和色度分量还分别额外支持DC模式和plane模式。对于帧内模式的编码,AVS1采用MPM,MPM内有2个候选项,来自上方和左侧相邻块。原创 2022-11-01 22:33:24 · 12443 阅读 · 0 评论 -
AVS3编码块划分
AVS3支持更加灵活的划分方式,支持最大CTU尺寸为128x128,最小为4x4,除了支持四叉树和二叉树划分,还支持增强四叉树划分(Extended quad-tree partition,EQT),如图2所示。对于AVS1来说,intra macroblock固定为8x8大小,而inter macroblock为16x16,还可以划分为2个8x16块或2个16x8块,也可以划分为4个8x8块。DT划分仅针对intra模式的亮度分量,它在四叉树的叶子节点上进一步划分,有6种划分模式,如图3所示。原创 2022-10-25 21:12:57 · 12420 阅读 · 0 评论 -
DCC2022:高阶帧内预测
帧内预测是去除空域冗余的重要工具,它从上方或左侧重建像素中为当前像素选择参考像素,参考像素的具体位置由像素投影法获得,它通过选择的模式的角度计算投影后的位置,它们通过线性模型实现。导数公式里有两个参数a和b,由于曲线进入CU的切角是tan(alpha),曲线离开CU的切角是tan(beta),所以曲线在y=0时导数是tan(alpha),曲线在y=h时导数是tan(beta),代入公式可以求得参数a和b,Fig.2(a)是传统的帧内预测方法,Fig.2(b)是论文提出的高阶帧内预测方法(HOIP)。原创 2022-10-18 21:05:14 · 11539 阅读 · 0 评论 -
DCC2022:环路滤波CCSAO
计算分类器中每个类别的offset时首先用上面公式对帧内重建像素进行分类,然后按照HEVC SAO中的方法为每个类别计算初始offset,此外对于小于初始offset的offset也进行RD计算最终选择RD cost最小的offset。每个CTB可以选择最优的分类器来进行CCSAO处理。计算如下式,给定一个亮度或色度像素首先取其对应的YUV值,然后根据值计算对应的边带{band_Y,band_U,band_V},然后根据边带得到改像素所属的类别i,根据类别i取对应的补偿值加到重建值上得到新的重建值。原创 2022-09-27 21:58:26 · 12325 阅读 · 1 评论 -
基于深度学习的环路滤波的消融实验
移除前的BD-Rate为-7.57%(表1第3行),这表明同时去掉划分信息和BS信息对帧内亮度模型有影响,可以判断划分信息和BS信息在模型中可能起到相似的作用,模型中至少保留两者之一。去掉前7个残差单元中的attention计算,不带attention的残差单元结构如下图,第8个残差单元保持不变,经过378轮次的训练BD-Rate为-7.56%,表1第10行,对帧内亮度模型的效果几乎没有影响。移除前的BD-Rate也为-7.57%(表1第3行),这表明去掉划分信息对帧内亮度模型的效果没有影响。原创 2022-09-13 22:13:44 · 14802 阅读 · 0 评论 -
基于深度学习的环路滤波和残差缩放
本文来自提案JVET-X0066和JVET-Y0143,在JVET-W次会议中提出了基于深度学习的环路滤波的提案,包括自适应参数选择和注意力机制的深度模型(EE1-1.2),以及残差缩放的深度模型(EE1-1.4)。每个slice或块都可以选择是否进行基于CNN的滤波,如果slice/block决定要使用基于CNN的滤波,则需要从候选列表{q,q-5,q-10}中选择条件参数,其中q是序列的QP。滤波粒度决策和参数选择由分辨率和QP决定,对于更大的分辨率和QP决策和选择在更大的区域上进行。...原创 2022-08-30 22:20:04 · 13593 阅读 · 0 评论 -
VVC码率控制改进
在VTM中,LD和RA配置的GOP size分别为32和8,固定SW不适合当前配置和将来扩展,因为提案根据GOP size和IntraPeriod(IP)计算SW,本文来自提案JVET-Y0105 《An improved VVC rate control scheme》,提案对VVC的码率控制做了一些改进,主要包括三部分,第一,CTU级的skip和非skip块码率分配。默认的RD模型无法精准描述skip块的特征,因此提案对skip和非skip块单独处理,首先,skip CTU的码率计算如下,......原创 2022-08-16 22:21:39 · 13797 阅读 · 1 评论 -
VVC码率控制中的质量依赖因子QDF
其中VTM中的码控主要做了两处改进,其一是在更新帧级参数时将skip和非skip区域区分开,各自单独更新,其二是改进了码控参数的更新策略,具体可参考提案JVET-K0390。以VTM3.0作为实验平台,提案方法和JVET-K0390中的码控方案相比,在RA配置下YUV的BD-Rate分别为-0.34%/-3.45%/-3.02%,如表2所示。通过实验发现,QDF和图像skip块比例间有很强的关系,根据实验发现QDF和skip比例存在下面的线性关系,Wi表示第i帧的权重,它由以它为参考的帧的QDF决定,...原创 2022-08-09 23:06:39 · 14035 阅读 · 0 评论 -
端到端图像编码和VVC的结合
提案提出了一种混合编码方法,对视频I帧使用端到端的图像编码器编码,P和B帧使用VVC编码,如Fig.1,其中P和B帧内的intra块还是使用VVC编码。基于神经网络的端到端图像编码器的效率已经超越传统的图像编码器,例如JPEG-AI的编码效率比VVC编码I帧高20-30%,但是视频比图像更复杂因此该提案只对I帧使用神经网络处理,P和B帧还是使用VVC。VTM14RA配置的结果如表1,其中QP={32,37,42,47},选择这些QP是为了使VVC的I帧码率和JPEGAI对齐。绿色框内是熵编码网络。.....原创 2022-08-03 00:09:22 · 14117 阅读 · 0 评论 -
基于神经网络的帧内预测和变换核选择
在VTM-8.0上,allintra配置下YUV的BD-Rate分别为-3.36%,-2.95%,-2.97%,编解码时间分别是395%和3575%,randomaccess配置下YUV的BD-Rate分别为-1.52%,-1.00%,-1.26%,编解码时间分别是159%和723%。如果min(h,w)>8,上一步的结果被分为两个矩形部分,Y上方的参考像素X0和左侧的X1,这是因为网络对于min(h,w)>8的块采用卷积处理。对于16x16的块使用卷积网络,且该网络由3个子网络构成,如Fig.3,....原创 2022-07-26 22:57:16 · 14216 阅读 · 0 评论 -
使用基于SSIM的CNN进行环路滤波
本文来自提案JVET-T0069《SSIM based CNN model for in-loop filtering》,目前大部分基于深度学习的视频编码研究都是优化客观指标,然而对于人眼视觉来说更高的客观指标有时候并不意味着更高的主观效果。因此,该提案提出神经网络模型CNNLF(convolutional neural network based in-loop filter)来进行主观优化。简介CNNLF用于环路滤波阶段,处于deblocking之后,SAO之前,如Fig.1所示。正在上传…重新上传取原创 2022-07-19 22:35:35 · 14224 阅读 · 0 评论 -
基于神经网络的时域处理
本文来自提案JVET-V0090 《Neural network based temporal processing》,提出使用神经网络进行时域处理以增强输出图像的细节和预测图像的质量。简介在上篇文章中介绍了通过生成虚拟参考帧来提升运动预测质量的方法,但是参考帧的增加会提高计算复杂度。文中提出的时域处理模型不需要增加参考帧,通过对重建图像的处理既能提升输出图像的细节又能提高预测精度。它包含两个模型,第一个模型在输出前对解码图像进行处理,第二个模型对参考图像进行处理。整体架构Fig.1是整个架构,灰色格子里是原创 2022-07-12 22:42:32 · 14377 阅读 · 0 评论 -
基于深度学习的参考帧生成
本文来自提案JVET-T0058和JVET-U0087,该方法通过插帧的方法生成虚拟参考帧用于帧间预测。整个模型由几个子模型组成,分别进行光流估计、补偿和细节增强。整体架构整体架构如Fig.1所示,在视频编码过程中DPB中存着用于运动估计的参考帧,根据GOP结构当前帧有一个或多个前向、后向参考帧。提案中默认使用POC距离当前帧最近的两个参考帧生成虚拟参考帧,如Fig.1中当前帧POC是5,则使用POC为4和6的帧生成参考帧。生成的虚拟参考帧会被放入DPB用于参考,虚拟参考帧的POC设置为和当前帧相同。为了防原创 2022-07-06 00:10:53 · 14737 阅读 · 0 评论 -
基于Unet的环路滤波
本文来自大华在JVET工作组的提案JVET-Y0086《A Unet-Based Deep In-Loop Filter》简介由于DNN在图像去噪和细节还原上效果显著,如果用于视频编码的环路滤波环节则能更好的重建图像提高编码效率。提案提出了基于HDRUnet的环路滤波技术,其中HDRUnet是一种基于Unet的网络。网络结构 图1 网络结构图1是网络结构,对于亮度分量网络输入尺寸是160x160,在CTU尺寸128x128基础上每个方向往外填充16个像素,同时对应的色度块上采样到160x160作为输入。处理原创 2022-06-28 23:00:08 · 14955 阅读 · 5 评论 -
VCIP2021:利用解码信息进行超分辨率
本文来自VCIP2021《CNN-based Super Resolution for Video Coding Using Decoded Information》简介随着高分辨率视频的增多,给带宽受限的情况下视频传输带来了巨大的挑战。为了解决这个问题,可以采用重采样的编码方法,如Fig.1,视频在编码前先进行下采样,然后编码低分辨率的视频,解码端在解码后再进行上采样恢复原来的分辨率。AV1中就存在对下采样的帧进行编码在解码端再进行上采样的模式。VVC中也支持RPR。随着基于CNN的超分辨(SR)的发展,原创 2022-06-21 22:40:31 · 15394 阅读 · 0 评论 -
视频压缩数据集TVD
基于学习的视频压缩和视频分析任务在学术界和工业界蓬勃发展,对于相关研究工作和标准制定工作急需高质量的训练和测试数据,例如对于JPEG AI、JVET NNVC、MPEG VCM等。因此,腾讯多媒体实验室构建了TVD(Tencent Video Dataset)数据集。TVD可以用于多种任务,例如基于神经网络的视频编码、目标检测、目标追踪等。TVD包含86个视频序列,涵盖了不同内容。每个序列分辨率为3840x2160,有65帧。这些视频序列已经用于JVET NNVC相关提案的训练。对于目标检测任务,TVD提供原创 2022-06-10 21:49:05 · 16215 阅读 · 0 评论 -
VCIP2021:基于神经网络的双向预测blending过程
本文来自VCIP2021论文《Neural Network based Inter bi-prediction Blending》介绍双向预测最终会产生两个MV和两个参考块,这两个参考块通过加权最终形成一个预测块,这个过程即为blending。双向预测能减少编码失真、亮度变化、块内小运动引起的误差。VVC中提出了多种工具来提升双向预测过程的表现,例如BCW技术对两个参考块分别赋予一个权重,最终的预测块由两个参考块加权生成,相比在HEVC中进行双向预测时预测值等于前向预测值和后向预测值的均值,BCW的加权预测原创 2022-06-14 22:55:50 · 15663 阅读 · 3 评论 -
VCIP2021:GDR中使用HMVP
本文来自VCIP2021论文《HMVP for GDR of VVC》为了适应低延迟场景VVC支持GDR图像,GDR图像由clean area和dirty area组成,通过virtual boundary分割。其中clean area中的CU只能使用clean area中的信息来编码。HMVP是VVC中新增的工具,使得后续MV集更丰富。但是HMVP可能来自dirty area,此时如果clean area中的CU使用这些HMVP则会造成泄露。HMVPVVC在帧间预测时支持merge和AMVP,这两种方法对原创 2022-06-07 23:38:34 · 15950 阅读 · 0 评论 -
基于神经网络的运动补偿增强
本文来自阿里巴巴在JVET Z次会议上的提案JVET-Z0074《NeuralNetwork Based Motion Compensation Enhancement for Video Coding》该提案提出使用神经网络在CU级对运动补偿块进行增强从而提高编码效率。具体来说,当CU完成运动补偿过程后使用神经网络对预测块进行处理。简介基于神经网络的运动补偿增强作用于inter块,该块既可以正方形的也可以是矩形的。当对矩形块使用神经网络时,wxh的块和hxw块使用相同的网络模型。可以通过C原创 2022-05-31 21:15:29 · 16054 阅读 · 0 评论 -
ICIP2021:基于CNN的环路滤波
本文来自ICIP2021论文《CNN Based In-loop Filter For VVC Intra Coding》VVC提供了三种环路滤波器:SAO、Deblocking、ALF来减少压缩失真,但是手工设计的滤波器难以处理复杂的压缩失真。论文提出基于CNN的环路滤波技术来提升VVC中I帧的质量。网络输入包括从重建像素中提取的特征以及划分、预测信息,对于色度分量的输入还包括亮度像素。Input整个网络结构如Fig.1所示,其中输入部分在图的左侧。输入包括重建信息、划分信息以及预原创 2022-05-24 20:25:16 · 16603 阅读 · 0 评论