《AV1 Bitstream & Decoding Process Specification》,译名:AV1比特流及解码规范-Chapter 01~02

本文档详细阐述了Alliance for Open Media的AV1视频编解码器的比特流格式和解码过程,涵盖了编码帧、解码帧、帧间预测、帧内预测、环路滤波器等多个关键技术环节。适用于理解和实现AV1编解码器。
摘要由CSDN通过智能技术生成

AV1 Bitstream & Decoding Process Specification

AV1:Alliance for Open Media Video 1

作者

Peter de Rivaz, Argon Design Ltd

Jack Haughton, Argon Design Ltd

编解码工作组主席

Adrian Grange, Google LLC

文档编制

Lou Quillio, Google LLC

带勘误表1的1.0.0版本

带勘误表1的1.0.0版本的AV1比特流规范取代了所有以前版本的AV1比特流规范,最值得注意的是版本1.0.0,现在已经过时了。

该版本对应于Git标签v1.0.0-errata1 AOMediaCodec / av1-spec项目,其内容与参考解码器(由libaom v1.0.0-errata1提供)一致,已经过验证。

如需对此文档发表评论,请使用邮件列表或问题跟踪器。

版权

Copyright 2018, The Alliance for Open Media

许可信息可参见

http://aomedia.org/license/

摘要

本文档定义了Alliance for Open Media AV1视频编解码器的比特流格式和解码过程。

1. 范围

本文件规定了开放媒体联盟AV1比特流格式和解码过程。

2. 术语和定义

就本文而言,以下术语和定义适用:

交流系数

任何变换系数,其频率指数在至少一个维度上是非零的。

Altref (Alternative reference frame)

备选参考帧,可用于帧间编码的帧。

基层

spatial_id和temporal_id值等于0的图层。

比特流

通过编码帧序列生成的比特序列。

位串

具有有限位数的有序字符串。

最左边的位是最高位(MSB),最右边的位是最低有效位(LSB)。

正方形或矩形的样本区域。

块扫描

量化系数的指定序列排序。

字节

一个8位的位串。

字节对齐

若某一位的位置与比特流中的第一位的位置间隔为8的整数倍,则该位是字节对齐的。

CDEF (Constrained Directional Enhancement Filter)

约束定向增强滤波器,旨在根据识别方向自适应地进行块过滤。

CDF (Cumulative Distribution Function)

累积分布函数,表示特征值小于或等于给定值的概率时间(32768)。

色度

两个色差信号的样本值矩阵或者单个样本值。(色度的表示符号为U和V)

编码帧

解码处理之前的帧数据的表示。

分量

三个样本值矩阵之一(一个亮度矩阵和两个色度矩阵)或者其单个样本值。

复合预测

一种帧间预测,通过将来自两个参考帧的预测混合在一起来计算样本值(混合的帧可以相同或不同)。

直流系数

变换系数,其频率指数在两个维度上均为零。

解码帧

解码器从比特流中重构帧。

解码器

解码过程的一个实例。

解码过程

从语法元素解析出解码帧的过程,包括其之前和之后使用的任何处理步骤。

去量化

通过缩放量化系数获得变换系数的过程。

编码器

编码过程的一个实例。

编码过程

本规范中未指定的过程,用于生成符合本文档所描述的比特流。

增强层

具有spatial_id大于0或temporal_id大于0的图层。

标识位

二进制变量,使用单词flag来描述一些变量和语法元素(例如obu_extension_flag),以突出该语法元素只能等于0或1。

空间域中视频信号的表示方式,由一个亮度样本矩阵(Y)和两个色度样本矩阵(U和V)组成。

帧上下文

解码过程中使用的一组概率。

黄金帧

可用于帧间编码的帧。通常,黄金帧具有更高的编码质量,并用作多个帧间帧的参考。

帧间编码

使用帧间预测对一个块或帧进行编码。

帧间帧

通过参考先前解码的帧而压缩的帧,其可以使用帧内预测或帧间预测。

帧间预测

使用先前解码的帧导出当前帧的预测值的过程。

帧内编码

使用帧内预测对一个块或帧进行编码。

帧内帧

仅使用可以独立解码的帧内预测进行压缩的帧。

帧内预测

使用相同解码帧中的先前解码的样本值导出当前样本的预测值的过程。

逆变换

将变换系数矩阵变换为空间样本值矩阵的过程。

关键帧

帧内帧,在显示时重置解码过程。

具有相同spatial_id和相同temporal_id的值的一组OBU切片。

等级

语法元素和变量值的一组已定义约束。

环路滤波器

一种滤波过程,用于降低图像重建时产生的块边缘的可见性。

亮度

样本值矩阵或表示与原色相关的单色信号的单个样本值。(亮度的表示符号为Y)

模式信息

为块发送的语法元素,其中包含了如何在解码过程中进行块预测的指示。

模式信息块

大小为4x4或更大的亮度样本值块及其两个对应的色度样本值块(如果存在色度样本)。

运动矢量

用于帧间预测(当前帧使用参考帧作为参考)的二维矢量,其值提供了从当前帧中的位置到参考帧中的位置的坐标偏移。

OBU (Open Bitstream Units)

所有结构都以“开放比特流单元”进行打包。每个OBU都有一个数据头,为其所包含的数据(有效负载)提供标识信息。

解析

从比特流中获取语法元素的过程。

预测

预测过程的实现包括帧间或帧内预测。

预测过程

使用预测器估计解码的样本值或数据元素的过程。

预测值

该值是在下一个样本值或数据元素的解码过程中使用先前解码的样本值或数据元素的组合结果。

Profile

单独定义的语法、语义和算法的子集。

量化参数

用于在解码过程中缩放量化系数的变量。

量化系数

去量化前的变换系数。

光栅扫描

将二维矩形栅格映射到一维栅格,其中一维栅格的条目从二维栅格的第一行开始,然后继续扫描第二行和第三行,依此类推。每个栅格行按从左到右的顺序扫描。

重建

获得解码残差和相应预测值的相加结果。

参考

一组标签中的一个,每个标签都映射到参考帧。

参考帧

用于先前解码的帧和相关信息的存储区域。

保留的

一种特殊的语法元素值,可用于在将来扩展此部分。

残差

重建样本与相应预测值之间的差异。

样本

构成帧的基本元素。

样本值

样本的值。对于8位帧,是0~255的整数;10位帧为0~1023;12位帧为0~4095。

分割图

包含图像中每个4x4块的段关联的3比特数字。为每个参考帧存储分割图,以允许新帧使用先前的编码图。

序列

编码比特流的最高级语法结构,包括一个或多个连续编码帧。

超级块

Tile中的顶层的块四叉树。帧内的所有超级块都具有相同的大小并且是正方形的。超级块可以是64x64或者128x128的亮度样本。超级块可以包含1或2或4个模式信息块,或者可以在每个方向上被平分为4个子块,这些子块本身可以进一步分块,以形成块四叉树。

切换帧

帧间帧,可用于序列之间需要切换的位置。切换帧会覆盖所有参考帧,而不会强制使用帧内编码。目的是允许流式用例,其中视频可以以小块(例如1秒持续时间)编码,每个块以切换帧开始。如果可用带宽下降,则服务器可以开始从较低比特率编码发送块。当发生这种情况时,帧间预测使用现有的更高质量的参考帧来解码切换帧。这种方法允许比特率切换而没有完整的关键帧的开销。

语法元素

比特流中表示的数据元素。

时间分隔符OBU

指示后续的OBU将与时间分隔符之前的最后一帧的OBU具有不同的呈现/解码时间戳。

时间单位

时间单位由与特定的不同时刻相关联的所有OBU组成。它由时间分隔符OBU和后续的所有OBU组成,直到但不包括下一个时间分隔符。

时间组

一组帧,其时间预测结构在视频序列中周期性地使用。

Tile

帧的矩形区域,可以独立编解码,尽管仍然应用跨越Tile边缘的环路滤波。

变换块

矩形变换系数矩阵,用作逆变换过程的输入。

变换系数

被认为是在频域中的标量值,包含在变换块中。

未压缩的数据头

在不使用算术编码的情况下编码的,用于解码过程的帧的高级描述。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值