H.266/VVC
文章平均质量分 78
下一代视频编码标准
Dillon2015
从事视频编码的相关研究。
邮箱:13141211944@163.com
展开
-
DCC2023:基于梯度线性模型的帧内色度预测
对于YUV420格式的视频,需要先将亮度分量使用低通滤波器下采样到和色度分量同样的分辨率,然后使用线性模型计算色度的预测值。表1是2-parmeter GLM的实验结果,表2是3-parmeter GLM的实验结果,对比表1和表2可以发现3-parmeter GLM在屏幕内容上表现更好。CCLM计算模型参数使用1行/列重建像素,为了增加模型的鲁棒性,3-parmeter GLM在计算模型参数时使用6行/列重建像素。2参数GLM和CCLM的结构一样,唯一的区别是使用的下采样滤波器不同。原创 2023-12-21 20:29:09 · 2022 阅读 · 0 评论 -
DCC2022:高阶帧内预测
帧内预测是去除空域冗余的重要工具,它从上方或左侧重建像素中为当前像素选择参考像素,参考像素的具体位置由像素投影法获得,它通过选择的模式的角度计算投影后的位置,它们通过线性模型实现。导数公式里有两个参数a和b,由于曲线进入CU的切角是tan(alpha),曲线离开CU的切角是tan(beta),所以曲线在y=0时导数是tan(alpha),曲线在y=h时导数是tan(beta),代入公式可以求得参数a和b,Fig.2(a)是传统的帧内预测方法,Fig.2(b)是论文提出的高阶帧内预测方法(HOIP)。原创 2022-10-18 21:05:14 · 11520 阅读 · 0 评论 -
DCC2022:环路滤波CCSAO
计算分类器中每个类别的offset时首先用上面公式对帧内重建像素进行分类,然后按照HEVC SAO中的方法为每个类别计算初始offset,此外对于小于初始offset的offset也进行RD计算最终选择RD cost最小的offset。每个CTB可以选择最优的分类器来进行CCSAO处理。计算如下式,给定一个亮度或色度像素首先取其对应的YUV值,然后根据值计算对应的边带{band_Y,band_U,band_V},然后根据边带得到改像素所属的类别i,根据类别i取对应的补偿值加到重建值上得到新的重建值。原创 2022-09-27 21:58:26 · 12302 阅读 · 1 评论 -
基于深度学习的环路滤波的消融实验
移除前的BD-Rate为-7.57%(表1第3行),这表明同时去掉划分信息和BS信息对帧内亮度模型有影响,可以判断划分信息和BS信息在模型中可能起到相似的作用,模型中至少保留两者之一。去掉前7个残差单元中的attention计算,不带attention的残差单元结构如下图,第8个残差单元保持不变,经过378轮次的训练BD-Rate为-7.56%,表1第10行,对帧内亮度模型的效果几乎没有影响。移除前的BD-Rate也为-7.57%(表1第3行),这表明去掉划分信息对帧内亮度模型的效果没有影响。原创 2022-09-13 22:13:44 · 14760 阅读 · 0 评论 -
基于深度学习的环路滤波和残差缩放
本文来自提案JVET-X0066和JVET-Y0143,在JVET-W次会议中提出了基于深度学习的环路滤波的提案,包括自适应参数选择和注意力机制的深度模型(EE1-1.2),以及残差缩放的深度模型(EE1-1.4)。每个slice或块都可以选择是否进行基于CNN的滤波,如果slice/block决定要使用基于CNN的滤波,则需要从候选列表{q,q-5,q-10}中选择条件参数,其中q是序列的QP。滤波粒度决策和参数选择由分辨率和QP决定,对于更大的分辨率和QP决策和选择在更大的区域上进行。...原创 2022-08-30 22:20:04 · 13560 阅读 · 0 评论 -
VVC码率控制改进
在VTM中,LD和RA配置的GOP size分别为32和8,固定SW不适合当前配置和将来扩展,因为提案根据GOP size和IntraPeriod(IP)计算SW,本文来自提案JVET-Y0105 《An improved VVC rate control scheme》,提案对VVC的码率控制做了一些改进,主要包括三部分,第一,CTU级的skip和非skip块码率分配。默认的RD模型无法精准描述skip块的特征,因此提案对skip和非skip块单独处理,首先,skip CTU的码率计算如下,......原创 2022-08-16 22:21:39 · 13757 阅读 · 1 评论 -
VVC码率控制中的质量依赖因子QDF
其中VTM中的码控主要做了两处改进,其一是在更新帧级参数时将skip和非skip区域区分开,各自单独更新,其二是改进了码控参数的更新策略,具体可参考提案JVET-K0390。以VTM3.0作为实验平台,提案方法和JVET-K0390中的码控方案相比,在RA配置下YUV的BD-Rate分别为-0.34%/-3.45%/-3.02%,如表2所示。通过实验发现,QDF和图像skip块比例间有很强的关系,根据实验发现QDF和skip比例存在下面的线性关系,Wi表示第i帧的权重,它由以它为参考的帧的QDF决定,...原创 2022-08-09 23:06:39 · 14002 阅读 · 0 评论 -
端到端图像编码和VVC的结合
提案提出了一种混合编码方法,对视频I帧使用端到端的图像编码器编码,P和B帧使用VVC编码,如Fig.1,其中P和B帧内的intra块还是使用VVC编码。基于神经网络的端到端图像编码器的效率已经超越传统的图像编码器,例如JPEG-AI的编码效率比VVC编码I帧高20-30%,但是视频比图像更复杂因此该提案只对I帧使用神经网络处理,P和B帧还是使用VVC。VTM14RA配置的结果如表1,其中QP={32,37,42,47},选择这些QP是为了使VVC的I帧码率和JPEGAI对齐。绿色框内是熵编码网络。.....原创 2022-08-03 00:09:22 · 14083 阅读 · 0 评论 -
基于神经网络的帧内预测和变换核选择
在VTM-8.0上,allintra配置下YUV的BD-Rate分别为-3.36%,-2.95%,-2.97%,编解码时间分别是395%和3575%,randomaccess配置下YUV的BD-Rate分别为-1.52%,-1.00%,-1.26%,编解码时间分别是159%和723%。如果min(h,w)>8,上一步的结果被分为两个矩形部分,Y上方的参考像素X0和左侧的X1,这是因为网络对于min(h,w)>8的块采用卷积处理。对于16x16的块使用卷积网络,且该网络由3个子网络构成,如Fig.3,....原创 2022-07-26 22:57:16 · 14175 阅读 · 0 评论 -
使用基于SSIM的CNN进行环路滤波
本文来自提案JVET-T0069《SSIM based CNN model for in-loop filtering》,目前大部分基于深度学习的视频编码研究都是优化客观指标,然而对于人眼视觉来说更高的客观指标有时候并不意味着更高的主观效果。因此,该提案提出神经网络模型CNNLF(convolutional neural network based in-loop filter)来进行主观优化。简介CNNLF用于环路滤波阶段,处于deblocking之后,SAO之前,如Fig.1所示。正在上传…重新上传取原创 2022-07-19 22:35:35 · 14194 阅读 · 0 评论 -
基于神经网络的时域处理
本文来自提案JVET-V0090 《Neural network based temporal processing》,提出使用神经网络进行时域处理以增强输出图像的细节和预测图像的质量。简介在上篇文章中介绍了通过生成虚拟参考帧来提升运动预测质量的方法,但是参考帧的增加会提高计算复杂度。文中提出的时域处理模型不需要增加参考帧,通过对重建图像的处理既能提升输出图像的细节又能提高预测精度。它包含两个模型,第一个模型在输出前对解码图像进行处理,第二个模型对参考图像进行处理。整体架构Fig.1是整个架构,灰色格子里是原创 2022-07-12 22:42:32 · 14343 阅读 · 0 评论 -
基于深度学习的参考帧生成
本文来自提案JVET-T0058和JVET-U0087,该方法通过插帧的方法生成虚拟参考帧用于帧间预测。整个模型由几个子模型组成,分别进行光流估计、补偿和细节增强。整体架构整体架构如Fig.1所示,在视频编码过程中DPB中存着用于运动估计的参考帧,根据GOP结构当前帧有一个或多个前向、后向参考帧。提案中默认使用POC距离当前帧最近的两个参考帧生成虚拟参考帧,如Fig.1中当前帧POC是5,则使用POC为4和6的帧生成参考帧。生成的虚拟参考帧会被放入DPB用于参考,虚拟参考帧的POC设置为和当前帧相同。为了防原创 2022-07-06 00:10:53 · 14709 阅读 · 0 评论 -
基于Unet的环路滤波
本文来自大华在JVET工作组的提案JVET-Y0086《A Unet-Based Deep In-Loop Filter》简介由于DNN在图像去噪和细节还原上效果显著,如果用于视频编码的环路滤波环节则能更好的重建图像提高编码效率。提案提出了基于HDRUnet的环路滤波技术,其中HDRUnet是一种基于Unet的网络。网络结构 图1 网络结构图1是网络结构,对于亮度分量网络输入尺寸是160x160,在CTU尺寸128x128基础上每个方向往外填充16个像素,同时对应的色度块上采样到160x160作为输入。处理原创 2022-06-28 23:00:08 · 14933 阅读 · 5 评论 -
VCIP2021:利用解码信息进行超分辨率
本文来自VCIP2021《CNN-based Super Resolution for Video Coding Using Decoded Information》简介随着高分辨率视频的增多,给带宽受限的情况下视频传输带来了巨大的挑战。为了解决这个问题,可以采用重采样的编码方法,如Fig.1,视频在编码前先进行下采样,然后编码低分辨率的视频,解码端在解码后再进行上采样恢复原来的分辨率。AV1中就存在对下采样的帧进行编码在解码端再进行上采样的模式。VVC中也支持RPR。随着基于CNN的超分辨(SR)的发展,原创 2022-06-21 22:40:31 · 15373 阅读 · 0 评论 -
视频压缩数据集TVD
基于学习的视频压缩和视频分析任务在学术界和工业界蓬勃发展,对于相关研究工作和标准制定工作急需高质量的训练和测试数据,例如对于JPEG AI、JVET NNVC、MPEG VCM等。因此,腾讯多媒体实验室构建了TVD(Tencent Video Dataset)数据集。TVD可以用于多种任务,例如基于神经网络的视频编码、目标检测、目标追踪等。TVD包含86个视频序列,涵盖了不同内容。每个序列分辨率为3840x2160,有65帧。这些视频序列已经用于JVET NNVC相关提案的训练。对于目标检测任务,TVD提供原创 2022-06-10 21:49:05 · 16177 阅读 · 0 评论 -
VCIP2021:基于神经网络的双向预测blending过程
本文来自VCIP2021论文《Neural Network based Inter bi-prediction Blending》介绍双向预测最终会产生两个MV和两个参考块,这两个参考块通过加权最终形成一个预测块,这个过程即为blending。双向预测能减少编码失真、亮度变化、块内小运动引起的误差。VVC中提出了多种工具来提升双向预测过程的表现,例如BCW技术对两个参考块分别赋予一个权重,最终的预测块由两个参考块加权生成,相比在HEVC中进行双向预测时预测值等于前向预测值和后向预测值的均值,BCW的加权预测原创 2022-06-14 22:55:50 · 15639 阅读 · 3 评论 -
VCIP2021:GDR中使用HMVP
本文来自VCIP2021论文《HMVP for GDR of VVC》为了适应低延迟场景VVC支持GDR图像,GDR图像由clean area和dirty area组成,通过virtual boundary分割。其中clean area中的CU只能使用clean area中的信息来编码。HMVP是VVC中新增的工具,使得后续MV集更丰富。但是HMVP可能来自dirty area,此时如果clean area中的CU使用这些HMVP则会造成泄露。HMVPVVC在帧间预测时支持merge和AMVP,这两种方法对原创 2022-06-07 23:38:34 · 15922 阅读 · 0 评论 -
基于神经网络的运动补偿增强
本文来自阿里巴巴在JVET Z次会议上的提案JVET-Z0074《NeuralNetwork Based Motion Compensation Enhancement for Video Coding》该提案提出使用神经网络在CU级对运动补偿块进行增强从而提高编码效率。具体来说,当CU完成运动补偿过程后使用神经网络对预测块进行处理。简介基于神经网络的运动补偿增强作用于inter块,该块既可以正方形的也可以是矩形的。当对矩形块使用神经网络时,wxh的块和hxw块使用相同的网络模型。可以通过C原创 2022-05-31 21:15:29 · 16025 阅读 · 0 评论 -
ICIP2021:基于CNN的环路滤波
本文来自ICIP2021论文《CNN Based In-loop Filter For VVC Intra Coding》VVC提供了三种环路滤波器:SAO、Deblocking、ALF来减少压缩失真,但是手工设计的滤波器难以处理复杂的压缩失真。论文提出基于CNN的环路滤波技术来提升VVC中I帧的质量。网络输入包括从重建像素中提取的特征以及划分、预测信息,对于色度分量的输入还包括亮度像素。Input整个网络结构如Fig.1所示,其中输入部分在图的左侧。输入包括重建信息、划分信息以及预原创 2022-05-24 20:25:16 · 16571 阅读 · 0 评论 -
VVC中GDR
本文来自ICIP 2021论文《Gradual Decoding Refresh for VVC》 当编码一段序列时,如果需要随时从中途切入码流,HEVC的做法是插入一个IDR帧,IDR使用帧内编码其后的帧不需要依赖IDR前的帧即可解码。由于IDR使用帧内编码,所以一般IDR帧会比P或B帧大很多,对于低延迟场景传输较大的I帧会引起卡顿。为了解决这个问题,VVC使用GDR来代替插入IDR帧。GDR在H.264和H.265中作为SEI中的可选项,在VVC中正式进入标准。图1 GDR起始于P.原创 2022-05-17 21:25:06 · 17915 阅读 · 0 评论 -
ICIP2021:VVC RPR参考结构改进
本文来自ICIP 2021论文《An Enhanced Reference Structure For Referencr Picture Resampling In VVC》参考图像重采样(Referencr Picture Resampling,RPR)是VVC在实时视频编码的重要工具。RPR可以在码流内部自适应改变分辨率而不需要插入IDR或IRAP帧,这样可以避免因为IDR或IRAP帧过大造成的网络拥塞。RPR可以根据网络情况自适应调整分辨率,当网络带宽低时可以下采样编码低分辨率(LR)帧,当原创 2022-05-10 22:34:50 · 17757 阅读 · 0 评论 -
端到端视频编码:DVC
本文来自CVPR 2019论文《DVC: An End-to-end Deep Video Compression Framework》官方开源代码地址:https://github.com/GuoLusjtu/DVCDVC是一个端到端的视频编码模型,之前也有过一些基于DNN的视频编码方法,但是通常是使用DNN模型替换视频编码的某个模块,整体的训练流程不是端到端的。DVC将传统的基于块的编码框架的所有模块都使用神经网络替换,图1(a)是传统的视频编码框架,图1(b)是DVC框架。图1原创 2022-03-29 21:06:22 · 21726 阅读 · 0 评论 -
360视频:分段球面投影SSP
分段球面投影(Segmented sphere projection,SSP)将球面分为3个部分:北极、南极、赤道。图1是SSP投影示意图,球面上三个部分的分界线是北纬45度和南纬45度。北极和南极投影后的面是圆,索引分别为0和1,赤道投影方式和ERP相同,赤道投影后被划分为4个相同的正方形面,索引为2到5。投影后面的两极圆的直径和赤道正方形边长相等,因为它们纬度都跨了90度。图1 SSP投影Frame PackingSSP有两者frame packing方式,一种如图1所示,映射后按垂直方原创 2022-02-23 14:21:01 · 20378 阅读 · 0 评论 -
360视频:金字塔棱台投影TSP
金字塔棱台投影(Truncated square pyramid projection format,TSP)投影模型是棱台。TSP的投影平面如图1所示,投影后的六个面组成矩形平面,矩形内的坐标(x,y)范围在(0.0,1.0)内。给定面f的像素坐标(m,n)对应的(x,y)计算如下:x =0.5*(m + 0.5)/W + 0.5, 0≤ m <W (1)y =(n + 0.5)/H, 0 ≤ n < H (2)图1TSP投影面1...原创 2022-03-15 22:42:52 · 19949 阅读 · 0 评论 -
360视频:赤道圆柱投影ECP
赤道圆柱投影(Equatorial cylindrical projection,ECP)和ERP类似也使用圆柱体投影,但是ECP将球体分为三个部分进行投影:赤道、北极和南极。图1 ECP投影和frame packing如图1(a)所示,球体分为三个部分后,赤道部分的纬度范围为-41.81度到41.81度,占了整个球面积的2/3,两极各占1/6。图1(b)是两极投影到正方形平面的情况。图1(c)是ECP的frame packing,两极分别是面0和1,面2~5是赤道投影后的面。投影变.原创 2022-03-22 22:30:03 · 19559 阅读 · 0 评论 -
360视频:旋转球面投影RSP
旋转球面投影(Rotated sphere projection,RSP)将球体分为两个相同的部分,然后投影到平面上,宽高比3:2。图1 RSP投影球面上两部分的分割线类似于图2中网球上的分割线。图2网球分割示意图Frame Packing如图1所示,进行RSP投影后在2D平面有6个面,面4、0、5由球体的上半部分进行ERP投影后得到,如图3,面3、1、2由球体的下半部分沿Y轴和X轴旋转后再按ERP投影后得到,如图4。面4、0、5的FOV(Field of view)为.原创 2022-03-01 21:03:39 · 20230 阅读 · 0 评论 -
360视频:分段球面投影SSP
分段球面投影(Segmented sphere projection,SSP)将球面分为3个部分:北极、南极、赤道。图1是SSP投影示意图,球面上三个部分的分界线是北纬45度和南纬45度。北极和南极投影后的面是圆,索引分别为0和1,赤道投影方式和ERP相同,赤道投影后被划分为4个相同的正方形面,索引为2到5。投影后面的两极圆的直径和赤道正方形边长相等,因为它们纬度都跨了90度。图1 SSP投影Frame PackingSSP有两者frame packing方式,一种如图1所示,映射后按垂直方原创 2022-02-23 00:02:26 · 621 阅读 · 0 评论 -
360视频:二十面体投影ISP
和正八面体OHP投影类似,二十面体投影(ISP,Icosahedron projection format)采用二十面体作为投影模型。ISP也支持紧凑型和非紧凑型两种展开方式,图1中左侧为紧凑型,右侧为非紧凑型。图1ISP投影ISP的二十面体有12个角和20个面,表1是ISP中个角在XYZ坐标系中的定义,表2是各面的定义。表1ISP中角的定义 角 非紧凑型 紧凑型 V0 (1,c,0) (0,1.902,0) V1 (-1,c,0) (0.5..原创 2022-02-15 22:38:48 · 21761 阅读 · 0 评论 -
360视频:正八面体投影OHP
CMP投影是将球体投影到正方体上,但是透视投影过程不改变立体角的大小,即对应于球面上等立体角的两点,投影到立方体上后会出现中心区域密度高而边缘区域密度低的现象,导致投影均匀性较差。当使用的投影体和球体越接近时投影的均匀性越好,正八面体投影(Octahedron projection format,OHP)投影的均匀性比CMP要好,计算复杂度也相应变高。OHP投影模型有8个面(记为F0, F1, F2, F3, F4, F5, F6,F7),每个面都是正三角形,有6个角(记为V0,V1,V2,V3,V4,原创 2022-02-08 20:24:45 · 22449 阅读 · 0 评论 -
360视频:CMP和ACP投影
CMP投影立方体投影格式(Cubemap projection format,CMP)是通过将球面内容投影在立方体模型上后将各个面展开,然后拼接为矩形的一种投影方式。和ERP不同,CMP采用正方体进行投影,内容会投影到6个面上,如图1所示。图1 CMP投影6个面编号PX、PY、PZ、NX、NY、NZ,P表示沿坐标轴正方形,N表示沿坐标轴负方向。表1CMPface indexFace index Face label 说明 0 PX 正面,沿x轴正方..原创 2022-01-26 08:47:36 · 22544 阅读 · 0 评论 -
360视频简介及ERP投影
360°视频,也称全景视频、VR视频,是一种立体视频格式,和普通的2D视频在平面上展开不同,360视频是在球体上展开,JVET成了了专门的工作组研究360视频的编码。JVET还提供了360Lib参考软件用于360视频的投影格式转换和质量评价等。360Lib用c++写成,可以单独用于360视频的投影格式转换和质量评价处理,也可集成到HM和VTM中,这样在进行360视频编码时就不需要存储中间投影的YUV序列。360视频投影360视频是立体视频,而传统视频是2D的矩形平面视频,如果想对360视频编码就原创 2022-01-19 20:15:00 · 26723 阅读 · 6 评论 -
像素级BDOF
前面讲过BDOF是VVC新增的帧间预测工具,它由JEM中的BIO发展而来。BDOF基于光流的概念它假设物体的运动是平滑的。对于每个4x4的子块,通过使L0和L1的预测值的差值最小来计算运动修正量(Vx,Vy),然后用计算出来的运动修正值来调整4x4子块的双向预测值。ECM中提出了像素级BDOF,即对每个像素进行运动向量mv的修正。过程如下: 将CU划分为8x8的子块。 确定每个子块是否使用BDOF。通过计算两个参考子块的SAD是否超过给定阈值来确定该子块是否使用BDOF。 对于原创 2022-01-11 22:36:37 · 23043 阅读 · 0 评论 -
基于模板生成帧内模式TIMD
TIMDTIMD(template-basedintra mode derivation)是一种新的帧内预测模式,它由DIMD(decoder-sideintra mode derivation)发展而来。TIMD模式由MPM中的候选模式和模板生成。如上图所示,当前CU的左侧和上方区域构成当前CU的模板,模板附近是其参考像素。TIMD模式生成过程为:使用MPM中的每个模式为模板生成预测值,然后计算模板预测值和重建值的SATD,选择SATD最小的模式作为TIMD模式,并用于当前CU的预测。其中在原创 2022-01-04 22:23:37 · 22717 阅读 · 0 评论 -
帧内模板匹配预测TMP
帧内模拟匹配预测(Intra template matching prediction,Intra TMP)是一种特殊的帧内预测模型,和IBC类似,TMP使用当前帧已重建部分作为预测。不过和IBC的区别在于,它不是在重建区域中搜索与当前块最相近的块作为预测,而是搜索和当前块的L型模板最匹配的块。如上图所示,当前块左侧和上方像素形成了一个L型的模板,TMP使用该模板在重建区域搜索最匹配的L型模板,然后使用这个最匹配的L型模板所包围的块作为当前块的预测块。TMP工具适合屏幕内容场景,且进行模板搜索时使原创 2021-12-21 22:46:58 · 23118 阅读 · 0 评论 -
CCLM的改进
跨分支线性模型(Cross-component linear model,CCLM)是VVC新增的帧内预测技术,它假设同一个编码块的色度像素值和对应的亮度像素值有线性关系,所以CCLM使用一个线性模型直接使用亮度像素的重建值生成对应色度像素的预测值。其中α和β是模型参数,有色度相邻像素求得。是色度像素对应亮度像素的重建值,对于YUV420格式视频需要对亮度进行下采样,如图1。图1 CCLM下采样为了进一步提高CCLM的编码效率,在ECM中对CCLM进行了改进,有以下三个方面: ..原创 2021-12-15 22:29:07 · 25952 阅读 · 0 评论 -
VVC中CIIP、OBMC和LMCS工具的协同
VVC中为了提高预测的准确率增加了很多工具,其中一个CU可以同时使用CIIP、OBMC、LMCS等工具。本文来自JVET-X0090《On combination of CIIP, OBMC and LMCS》,该提案提出了这三种工具不同的协同方法,并进行实验验证。简介在VVC中新增了LMCS,该工具会将输入像素进行映射,CU在映射域进行预测。在ECM2.0中,当一个CU同时使用LMCS、CIIP和OBMC时,最终的预测值将由CIIP得到的预测值和OBMC得到的预测值加权得到,其中CIIP的预测值在原创 2021-12-08 07:22:23 · 23971 阅读 · 0 评论 -
JVET-X基于神经网络视频编码实验总结
本文来自JVET-X0023《EE1: Summary of Exploration Experiments onNeural Network-based Video Coding》本提案是JVET-X EE1的实验总结,EE1是基于神经网络的视频编码的实验。包含了在W次会议到X次会议间完成了11个NNVC的技术实验,及它们的性能和复杂度分析。基于NN的环路滤波的几种变种技术在RA配置下码率节省2~10%,复杂度30~800kMAC/pxl(每个像素的平均累加乘法操作数)。几种基于NN的超分辨技术对4K原创 2021-11-30 23:44:51 · 24838 阅读 · 0 评论 -
MPEG VCM
传统是视频编码是针对人眼视觉进行优化的,目的是在保持人的主观失真不增加的情况下降低码率。而现在越来越多的视频需要进行机器分析,而人只需要看机器分析的结果。因此MPEG成立VCM(Video Coding for Machines)工作组探索新的标准,在不降低机器处理性能的情况下降低码率。这里的机器处理任务包含多种计算机视觉任务,包括目标检测、目标跟踪、实例分割、姿态估计等。(公众号后台回复“VCM”获取相关资料)简介MPEG于2019年7月成立VCM工作组,专门研究针对机器处理的视频编码。VCM工作原创 2021-11-23 23:37:06 · 25764 阅读 · 3 评论 -
基于神经网络视频编码的通用测试规范
JVET第20次会议为基于神经网络的编码成立了EE1,这个EE专门用于探索深度学习在视频编码方面的潜能。为了规范和统一测试条件,JVET专门制定了相应的通用测试条件(Common Test Conditions ,CTC),最新版CTC为JVET-X2016(公众号后台回复“JVET-X2016”获取)。CTC规定了配置、测试序列、训练序列、参考软件、训练方法、评价指标等。所有基于神经网络的提案都需要按照CTC进行测试才能提交。配置CTC提供了四种配置,包括ntra-only,random-a原创 2021-11-09 23:28:06 · 26812 阅读 · 0 评论 -
VVC层级结构中基于神经网络的参考帧生成
本文来自JVET-X0060 《NN-based Reference Frame Interpolation for VVC Hierarchical Coding Structure》提案针对VVC的层级结构提出了基于深度神经网络(DNN)的参考帧生产方法。在编码和解码过程中,参考列表中的两个重建帧作为网络输入,输出为新生成的帧。新生成的帧再经过一个滤波网络的处理,然后插入到参考列表最后的位置。该方法Y、U、V节省的码率分别为1.47%/4.19%/3.85%。介绍VVC中,重建帧存储在原创 2021-11-16 23:05:01 · 25676 阅读 · 6 评论