![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
视频编码
文章平均质量分 84
涵小呆
这个作者很懒,什么都没留下…
展开
-
基于深度学习的帧间预测技术
本帖用来记录JVET中各家单位将深度学习用于帧间预测的各种方法,为编码与深度学习结合提供思路。目前深度学习用于帧间编码的几个思路:双向加权预测 时域滤波 插帧原创 2021-10-27 23:06:09 · 1969 阅读 · 8 评论 -
基于深度学习的帧内预测技术
在视频编码中,帧内预测是通过空域相邻像素预测当前块的像素,传统编码中帧内预测技术包括角度模式、DC和Planar模式,现在很多都开始使用深度学习来进行帧内预测。大部分使用深度学习进行帧内预测的网络主要分为:全连接神经网络或者全卷积神经网络或者卷积神经网络和全连接神经网络的结合。这里对各种方法进行一下总结,也梳理一下思路。Fully Connected Network-Based Intra Prediction for Image Coding这是第一篇使用全连接神经网络进行帧内预测的论文,称之原创 2021-06-07 22:09:04 · 3442 阅读 · 7 评论 -
基于深度学习的跨分量预测技术
A HYBRID NEURAL NETWORK FOR CHROMA INTRA PREDICTION基于之前的亮度和色度之间建立线性模型从而预测色度像素的LM方法,该文章研究了一种利用神经网络提取亮度像素和色度像素间的相关性,并通过神经网络来预测色度像素的方法。该文章采用了全连接网络和卷积网络相结合的方法:对亮度相邻像素和色度相邻像素使用全连接层,提取有用信息 使用卷积神经网络模拟亮度像素和色度像素间的关系网络结构:如图,以YUV420视频中的32x32大小的亮度块为例,由于色度.原创 2021-05-31 20:54:24 · 972 阅读 · 1 评论 -
PCS-2022-VVC中帧内和帧间预测的统一快速划分算法
VVC (Versatile Video Coding) 标准采用了比HEVC (High Efficiency Video Coding) 标准更灵活的划分结构,在HEVC的四叉树划分结构基础上,引入了多类型树划分,大大提高了编码效率,同时导致了编码端复杂度大幅增加。本文基于编码器 RD 检查的历史信息,提出了一种帧内和帧间统一的快速划分。原创 2023-05-12 21:17:30 · 1061 阅读 · 1 评论 -
JVET-AC0315:用于色度帧内预测的跨分量Merge模式
ECM采用了许多跨分量的预测(Cross-componentprediction,CCP)模式,包括跨分量包括跨分量线性模型(CCLM)、卷积跨分量模型(CCCM)和梯度线性模型(GLM),以利用分量间的相关性。该提案提出了一种跨分量的Merge模式(cross-componentmerge,CCMerge)作为一种新的CCP模式。CCMerge编码的跨分分量模型参数可以从用当前块的的相邻块继承。原创 2023-02-10 20:40:57 · 1251 阅读 · 0 评论 -
2022视频编码招聘面经
视频编码相关工作大概包括以下几个方向:1. 视频编码标准,主要参与国际国内编码标准制定工作,招聘公司大多都是大厂,坑位较少2. 软件编码器优化,主要是对codec内核的加速和性能提升,互联网公司需求较多3. 硬件编码器优化,主要是算法优化和RTL实现,芯片公司需求多,近期互联网公司也开始造芯,也会有招聘岗位4. 流媒体开发及编解码驱动开发,这两部分都是高层应用开发,不需要对编解码算法深入研究。原创 2023-01-16 11:12:08 · 2877 阅读 · 22 评论 -
JVET-Z0064-基于卷积交叉分量模型 (CCCM) 的帧内色度预测
本篇来自JVET-Z0064:1. 介绍本提案提出了一种基于卷积交叉分量模型 (convolutional cross-component model,CCCM) 的帧内色度预测技术。 与 CCLM 类似,当使用色度子采样时,对重建的亮度样本进行下采样以匹配较低分辨率的色度样本。此外,与 CCLM 类似,可以选择使用 CCCM 的单模型或多模型变体。 多模型变体使用两个模型,一个模型用于高于平均亮度参考值的样本,另一个模型用于其余样本(和 MMLM 类似)。多模型 CCCM 模式应用于原创 2022-04-28 20:14:53 · 1095 阅读 · 0 评论 -
JVET-Z0140-增强的CCLM
本篇来自JVET-Z0140提案:在VVC/ECM中,CCLM 通过利用亮度/色度分量之间的强相关性实现了显着的编码性能改进。但是CCLM在推导线性模型时,仅考虑单个下采样的亮度样本,而忽略了相邻亮度样本之间可能存在的相关性(比如空间相关性)。本提案作者观察到包含剧烈亮度强度变化的视频序列可能导致相应的色度值变化,称为紫边问题。本提案提出了两种技术,即基于滤波器的线性模型 (FLM) 和梯度线性模型 (GLM),方法一:基于滤波器的线性模型(Filter-based Linear Mod原创 2022-04-28 10:26:53 · 686 阅读 · 0 评论 -
JVET-Y0092-基于DIMD推导的色度帧内预测模式
本文来自提案 JVET-Y0092介绍ECM3.1中色度分量的帧内预测模式好包括六种交叉分量线性模型 (LM) 模式(CCLM_LT、CCLM_L、CCLM_T、MMLM_LT、MMLM_L 和 MMLM_T 模式) 、直接模式 (DM) 和四 默认色度帧内预测模式。 四种默认模式由列表 {0,50,18,1} 给出,如果 DM 模式已经属于该列表,则列表中的模式将替换为模式 66。ECM中引入了DIMD技术,DIMD是为当前块的第二相邻行和第二列的L形模板的每个重建亮度样本计算水平梯度原创 2022-03-28 22:48:50 · 982 阅读 · 0 评论 -
JVET-Y0055-CCLM 的斜率调整
本文来自JVET第25次会议中的提案JVET-Y0055:介绍当亮度与色度分量相关性较强时,CCLM预测性能较好。但当用于生成线性模型参数的参考像素可能有噪声,或者参考像素可能无法很好地代表实际预测块内的内容时,预测无法达到比较好的效果。本提案提出微调CCLM的线性模型参数来改进CCLM的性能。算法CCLM 使用斜率参数“a”和偏差参数“b”的线性模型将亮度值映射到色度值,映射如下:chromaVal = a * lumaVal + b本提案提出对斜率参数进行调整“u”以原创 2022-02-17 22:39:17 · 1798 阅读 · 1 评论 -
VCIP-2021-基于神经网络的双向预测混合
本文来自VCIP 2021的论文《Neural Network based Inter bi-prediction Blending》本文思路来自提案JVET-V0076,提出了一个基于全卷积的双向加权预测网络。网络框架如下所示,网络总共包括6层卷积,除最后一层外卷积层的激活函数都是ReLu,对于网络的最终输出预测值需要进行clip操作。输入块边界填充长度为N的像素。该网络应用VTM时,不需要传输码流,仅在满足特定条件时使用该网络进行加权预测,其余情况仍使用原来的加权预测方式(网络的原创 2022-01-26 16:42:21 · 3230 阅读 · 0 评论 -
TCSVT-2020-基于卷积神经网络的时空信息双向预测
本文来自TCSVT 2020的论文《Convolutional Neural Network Based Bi-Prediction Utilizing Spatial and Temporal Information in Video Coding 》介绍本文提出用于帧间双向加权预测的CNN,称为STCNN ,和之前工作不同的是,本文引入了空间相邻重建像素和参考帧的时间显示顺序作为额外信息,作者认为基于空域中相邻像素的高度相关性,引入当前块的空间相邻像素可以减少由块级运动补偿引起的块伪影。原创 2022-01-13 10:21:15 · 2897 阅读 · 1 评论 -
TCSVT-2019-基于卷积神经网络的增强双向预测
本文来自TCSVT 2019的论文《Enhanced Bi-Prediction With Convolutional Neural Network for High-Efficiency Video Coding》介绍传统的平均加权运动补偿是基于时域匀速运动和空域匀速运动的假设,无法很好地描述旋转、仿射变换和变形等不规则运动;此外,传统的加权预测是pixel-to-pixel级别的预测,与patch-to-patch级别的预测对比如下图所示,可以清楚的看出patch-to-patch可用的原创 2022-01-11 19:16:25 · 1826 阅读 · 0 评论 -
视频编码基础:I帧、P帧 和 B 帧
I 帧、P 帧和 B 帧的概念是视频压缩领域的基础。这三种帧类型在特定情况下用于提高编解码器的压缩效率、压缩流的视频质量以及流对传输和存储错误和故障的恢复能力。在本文中,我们将了解 I 帧、P 帧和 B 帧的工作原理以及它们的用途。目录1. 帧内预测和帧间预测2. 什么是I帧?3. 什么是P帧?4. 什么是B帧?5. 参考B帧和非参考B帧6.在视频压缩/流化中使用I、P和B帧6.1 在哪里使用I帧?6.2 刷新视频质量6.3 恢复比特流错误6.4 Tr...转载 2021-09-16 15:39:27 · 8619 阅读 · 0 评论 -
基于NN的编码:neural network based in-loop filter(Tencent)
JVET-W0113为了提高重建图像的质量,分别针对I Slice和B Slice训练神经网络模型。 在环内滤波过程中,使用NN 滤波器代替Deblock 和 SAO滤波 。Method将通过LMCS后的重建图输入到网络中,具体地,将U/V通道进行上采样和Y通道级联输入到网络中,通过滤波后,再将U/V通道进行下采样。最后,NN 滤波器的输出由 ALF 和 CCALF 处理网络结构下图展示了所提出的 NN 滤波器的网络结构。 第一层和最后一层是3x3的卷积。跳过层是5x5的卷积层。残.原创 2021-08-04 20:55:45 · 394 阅读 · 0 评论 -
基于NN的编码:Content-adaptive neural network post-processing filter(Nokia Technologies)
JVET-V0075该提案为了深度学习作为滤波的编解码器复杂度之间进行权衡,提出了一种新的训练方法:在一个足够大的数据集上预先训练一个相对较小的后处理神经网络,然后将其作为编码操作的一部分专门用于输入视频序列,对网络进行微调。网络结构和工作流程我们的NN过滤器的架构如图1所示。NN的输入是YUV+归一化的QP。第一块包括64个核的卷积层(不包括偏置)、偏置层、作为非线性激活函数的LeakyReLU。跟随4个与第一个块中的层相似的块,但是每个块的输入都添加到块的输出(通过使用skip connec原创 2021-05-10 22:02:21 · 554 阅读 · 1 评论 -
基于NN的编码:Convolutional Neural Networks-based In-Loop Filter(Bytedance)
JVET-T0088本文提出的CNN滤波网络的结构如下左图所示。为了增加感受野并降低复杂度,该方法在开始时包含一个步长为2的卷积层。通过该层后,Feature Map的空间分辨率在水平和垂直方向上都降低到输入大小的一半。再将该降低分辨率的Feature Map经过几个顺序堆叠的残差块(如下图右所示)。最后一个卷积层将最后一个残差块的Feature Map作为输入,生成4个N×N的Feature Map,最后采用Shuffle层生成空间分辨率与输入相同的图像,即2N×2N大小。网络的细节如下:原创 2021-04-14 17:57:19 · 547 阅读 · 0 评论 -
基于NN的编码:Preliminary results of Neural Network Loop Filter[DNNVC](Alibaba)
在本提案中,提供了一个基于神经网络的环路滤波器(neural network based loop filter,NNLF)的初步结果。初步结果表明,在HD序列的RA配置下,NNLF对Y、U和V分量的编码增益分别比VVC高5.57%、12.55%和13.62%。网络结构本提案使用残差网络结构(ResNet),如图左所示,主要有m层的resblock组成,resblock的结果如右图所示,其中act指的是active function,即激活函数。网络总共64层,采用3x3x64的卷积核,使用ReLU原创 2021-04-07 15:10:57 · 539 阅读 · 4 评论 -
基于NN的编码:In-loop filtering based on neutral network(Kwai)
JVET-T0094本提案提出了一种基于深度学习的环内滤波器。提出的环路滤波器位于Deblock和SAO级之间。基于VTM9.0的实现,对于AI和RA配置,所提出的基于深度学习的滤波器的平均{Y,U,V}BDbdrate性能分别为{-4.99%,-16.39%,-17.34%}和{-3.92%,-18.09%,-16.93%}。如下图所示,所提出的NN Filter位于DB和SAO之间。网络结构所提出的神经网络结构如图(a)所示,结构包括残差块(RB)和二维上采样卷积。网络的输入为YUV原创 2021-04-07 11:56:03 · 456 阅读 · 5 评论 -
基于NN的编码:Neural Network-based In-Loop Filter(Qualcomm)
JVET-T0079本文提出了一种基于神经网络的环路内滤波器作为附加的环路内滤波器级,并将其放置在ALF滤波器之后。因此,将ALF的输出作为NN滤波器的输入。网络结构本文提出的NN滤波器如下图所示。它包含14层,包括12个隐藏层,每层96个通道。每个隐藏层由一个3x3卷积层和一个Leaky RELU组成。总共有大约100万个模型参数。NN滤波的输入是一个128x128大小的亮度块和2个64x64的色度块。在滤波之前,使用JVET-M0159中提出的方法,对128x128的亮度块进行4次2原创 2021-03-24 22:13:15 · 713 阅读 · 2 评论 -
基于NN的编码:Dense Residual Convolutional Neural Network based In-Loop Filter[DRNLF](Tencent)
Dense Residual Convolutional Neural Network based In-Loop FilterDRNLF是由腾讯和武汉大学合作提出的,基于神经网络的环路滤波,作为DF和SAO之间的附加滤波器,DRNLF最早是在JVET-K0391提案中提出,之后并不断改进,本文总结该滤波器的演进过程。JVET-K0391A.Dense Residual Unit(DRU)ResNet中的残差学习可以有效地解决梯度消失问题,并有助于深层网络的训练。DenseNet中的密集原创 2021-03-23 22:22:44 · 968 阅读 · 0 评论 -
面向视频编解码后处理的深度学习方法进展
1 背景介绍视频以及图像的有损压缩算法会造成较为严重的失真以及效应,比如,基于块的编码策略将会引起块效应;高频分量的缺失会造成压缩后的图像会更加模糊,还有振铃效应,颜色偏移等等。特别是在编码是在较差的编码配置下(低比特率)尤为明显。这些效应会严重降低用户体验,所以如何去除这些效应或者削弱这些效应的影响也就成为一个重要的问题。在新一代视频编码标准HEVC(High Efficiency Video Coding)中,采用两种环路滤波的方案来削弱这些效应:去块滤波器以及SAO(样点自适应补偿)。从名字上转载 2021-01-22 21:08:25 · 1999 阅读 · 0 评论 -
从HEVC到VVC:帧内预测技术的演进(2) – 多划分及多参考行帧内预测
当前主流的视频编码标准(如H.264/AVC,VP9,AVS1,HEVC等)均使用当前预测单元最邻近的已重构像素对当前预测单元进行帧内预测。因为当前预测单元与其临近的像素之间有很强的相关性,该帧内预测技术可以有效地降低信号间的空间冗余。然而,如果当前预测单元内的像素与其周围临近的像素之间的相关性较弱时,该预测技术并不能很好的发挥作用。近几年的研究结果表明,多划分(sub-partition)和多参...转载 2020-02-23 15:46:41 · 2202 阅读 · 2 评论 -
从HEVC到VVC:帧内预测技术的演进(1) —方向预测(Angular intra prediction)
在视频压缩标准过去三十多年的发展历程中,方向预测(angular intra prediction)因其较低的实现复杂度以及相对高效的编码增益,成为多项国际视频标准(如H.264/AVC,VP9,AVS1,HEVC等)中的关键编码技术。然而,随着设备终端计算能力的不断提高以及市场对视频压缩性能需求的持续增强,更高性能更精细的方向预测技术逐渐成为研究热点,并被成功推向多项视频编码标准。本文分别以...转载 2020-02-23 15:36:55 · 1415 阅读 · 0 评论 -
视频编码失真测度:SAD、SATD、SSD、MSE、PSNR
一、定义SSD:平方误差和 —— Sum of Squared DifferenceMSE:均方误差 —— Mean Squared ErrorSAD:绝对误差和 (时域)—— Sum of Absolute DifferenceSATD:绝对误差和(频域,也可叫HAD) —— Sum of Absolute Transformed DifferencePSNR:峰值信噪比 —— Pe...原创 2020-02-19 09:11:55 · 7062 阅读 · 1 评论 -
NSST: Non-Separable Secondary Transforms for Next Generation Video Coding
摘要—在传统的图像和视频编码方案中,由于可分离变换复杂度较低,通常采用可分离的变换。然而,对于通常大多数具有任意定向的边缘和纹理图案的自然图像/视频块,可分离变换的压缩效率受到限制。众所周知,对于具有方向性的纹理图案,不可分离的变换可以实现更好的压缩效率,但是它们的计算复杂,尤其是对于较大的块而言。为了用相对低复杂度的实现方式实现更高的变换编码增益,在本文中,我们提出了不可分离的二次变换(NSST...翻译 2020-01-07 22:02:30 · 2238 阅读 · 1 评论 -
从HEVC到VVC:变换技术的演进(2)—— 二次变换(Secondary transform)
当前主流的视频编码标准(例如MPEG-2,H.264,VP9,AVS1等)均采用行列可分离的主变化(Separable primary transform)技术。可分离主变化对预测残差进行空域和变换域之间的转换,用于降低二维预测残差信号间的统计冗余。相比行列不可分离变换(Non-separable transform),行列可分离变换的主要优势在于更低的运算复杂度,然而对二维数据样本间的去相关能力...转载 2020-06-05 09:16:58 · 1929 阅读 · 1 评论 -
从HEVC到VVC:变换技术的演进(1)—— 主变换(Primary transform)
在视频编码标准过去三十多年的发展历程中,离散余弦变换(Discrete Cosine Transform,DCT)Type 2 (后面简称为DCT2)因其较低的实现复杂度以及相对高效的变换增益,成为多项国际视频标准中的关键核心编码技术。然而,随着设备终端计算能力的不断提高以及市场对视频压缩性能需求的持续增强,更高性能更精细的新型变换技术逐渐成为研究热点,并被成功推向多项视频编码标准。本文分别以...转载 2020-06-05 09:17:14 · 1124 阅读 · 0 评论 -
AMT
Enhanced Multiple Transform for Video Coding在混合编码框架中,变换编码十分重要,当预测并没有在消除空间冗余表现很好时,这时变换编码在去除空间域的冗余就十分重要了。在H.256/HEVC中主要采用的是4x4、8x8、16x16、32x32DCT-Ⅱ变换和4x4DST变换,理论上证明DCT-Ⅱ变换在一阶静态马尔科夫条件下能量压缩效果近似KLT变换,但是不...原创 2019-09-26 21:27:58 · 345 阅读 · 0 评论 -
DCT变换
DCT变换1.DCT变换公式及其性质傅里叶变换表明,任何信号都能表示为多个不同振幅和频率的正弦或者余弦信号的叠加。如果采用的是余弦函数,则信号分解过程称为余弦变换;若输入信号是离散的,则称之为离散余弦变换(Discrete Cosine Transform,DCT)。数学上共存在8种类型的DCT。公式如下:其中,在图像视频领域中,最常用的是DCT-Ⅱ,平常说的DCT一般指的是...原创 2019-09-26 19:58:57 · 30046 阅读 · 6 评论