智能视频编码
文章平均质量分 85
记录学习在智能视频编码实验室学习的知识
什么都不懂的小青蛙
这个作者很懒,什么都没留下…
展开
-
fatal error C1083: 无法打开包括文件: “ComCallPython”: No such file or directory
报错:1>D:\jjh\HM-16.5\source\Lib\TLibEncoder\TEncCu.h(53,10): fatal error C1083: 无法打开包括文件: “ComCallPython.h”: No such file or directory。摸索出的正确方法:先把其他项目中的文件拷贝到该工程正确的目录下,然后再添加现有项。在配置编码器时,当我想新增一个cpp文件,原创 2024-01-27 10:43:45 · 308 阅读 · 0 评论 -
CNN-based Prediction of Partition Path for VVC
一般来说,对于较低的分辨率,部分CTU占据的帧区域的比例较大,导致在较小的分辨率上使用快速分区方法时加速较小。值得注意的是,我们的方法是该领域最轻量级的方法之一,使得我们的方法能够适应更快的编解码器。这些模型之间的唯一区别在于它们的输入:第一个模型 PIX-CNN 将两个参考 CTU 的像素作为输入,而第二个模型 MVF-CNN 使用我们提出的 MS-MVF 作为输入。**值得注意的是,在[19]和[21]中,使用的一个关键特征是运动场,它包括为每个 4x4 子块计算的运动向量,引用最近的帧。原创 2023-11-05 14:46:21 · 946 阅读 · 1 评论 -
ELIC: Efficient Learned Image Compression with Unevenly Grouped Space-Channel Contextual Adaptive
最近,学习的图像压缩技术已经取得了显着的性能,甚至超过了最好的手动设计的有损图像编码器。它们有望被大规模采用。出于实用性的考虑,对学习图像压缩的架构设计(包括压缩性能和运行速度)进行彻底的研究是至关重要的。在本文中,我们首先提出了不均匀通道条件自适应编码,其灵感来自于学习图像压缩中能量压缩的观察。将所提出的不均匀分组模型与现有的上下文模型相结合,我们获得了空间通道上下文自适应模型,以在不损害运行速度的情况下提高编码性能。原创 2023-09-18 20:16:01 · 1418 阅读 · 0 评论 -
END-TO-END、SCALE HYPERPRIOR、Checkerboard梳理总结
VARIATIONAL IMAGE COMPRESSION WITH A SCALE HYPERPRIOR》超先验,它通过在熵模型之前引入额外的神经网络模型来提高熵模型的表达能力。随机掩码模型的玩具实验,实验结果表明:参考的特征数量与码率的节省效果不是强相关的。之前是对整体潜在特征进行建模,即一个熵模型在推理阶段应用在所有的特征值熵,而超先验架构为每个特征点都进行了熵模型建模。于是就设计了棋盘格模型,经随机掩码模型测试,节省的码率比之前的自回归要好,但是有新的问题,即双向引用。如何用得到的模型做编解码?原创 2023-08-14 20:21:12 · 1617 阅读 · 0 评论 -
VARIATIONAL IMAGE COMPRESSION WITH A SCALE HYPERPRIOR
我们描述了一种基于变分自动编码器的端到端可训练图像压缩模型。该模型结合了超先验来有效捕获潜在表示中的空间依赖性。这个超先验与辅助信息有关,这是一个几乎所有现代图像编解码器都通用的概念,但在使用人工神经网络 (ANN) 的图像压缩中很大程度上尚未得到探索。与现有的自动编码器压缩方法不同,我们的模型与底层自动编码器联合训练复杂的先验。我们证明,当使用流行的 MS-SSIM 指数测量视觉质量时,该模型可以实现最先进的图像压缩,并且当使用更传统的基于度量的评估时,其率失真性能超过已发布的基于 ANN 的方法。原创 2023-08-12 14:02:40 · 2347 阅读 · 1 评论 -
面向视频会议场景的 H.266/VVC 码率控制算法研究
论文标题面向视频会议场景的 H.266/VVC 码率控制算法研究发表期刊硕士电子期刊作者余东航发表日期2022 -5-25阅读日期2023.8.3评分Score类型思路批注研究背景本文的主要内容是什么?目前研究情况是什么?随着人们对高清视频画质的需求越来越高,现有的视频压缩技术需要进一步优化才能适应不断增加的应用需求。VVC的码率控制模块所分层次与 HEVC 码率控制模块相同,而具有实际研究价值的主要为帧层和 LCU 层,原创 2023-08-04 20:43:16 · 2167 阅读 · 2 评论 -
H.265/HEVC 速率控制
使用缓冲区的视频编码速率控制的基本思想如下:如果实际编码速率比可用的信道带宽高,则多余的比特会在缓冲区中积累。视频传输带宽通常都会受到一定限制,为了在满足信道带宽和传输时延限制的情况下有效传输视频数据,保证视频业务的播放质量,需要对视频编码过程进行速率控制。目前实际的视频编码率失真优化过程包括两部分:速率控制部分将视频序列分成编码单元,考虑编码单元的相关性通过码率分配技术确定每个编码单元目标码率,根据目标码率独立确定关键编码参数——量化参数;视频的编码速率与编码参数、编码结构、视频内容等诸多因素密切相关,原创 2023-08-01 13:08:37 · 2048 阅读 · 0 评论 -
H.265/HEVC 率失真优化
在实际应用中,研究信息率失真函数R(D)是为了在已知信源和允许失真度的条件下,使信源必须传送给信宿信息的传输速率最小,即用尽可能少的码符号尽快地传送尽可能多的消息,以提高通信的有效性,这是信源编码问题。不同的编码参数可以得到不同的率失真性能,最优的编码方案就是在编码系统定义的所有编码参数中使用能够使系统性能最优的参数值, 视频编码系统中的率失真优化就是基于率失真优化理论。在实际编码系统中,通常对系统的编码复杂度、延时和内存等都有一定的要求,因此实际系统的最优性能并不能达到率失真曲线定义的理论值。原创 2023-07-31 15:40:58 · 1976 阅读 · 0 评论 -
High-Efficiency Lossy Image Coding Through Adaptive Neighborhood Information Aggregation
随后,在各自的 H.264/AVC [36]、HEVC [6] 和 VVC [13] 的配置文件中采用了类似 DCT 的整数变换 [35] 来处理预测残差。自20世纪70年代以来,大量的研究致力于推进变换模块,从第一个离散余弦变换(DCT)[19]到混合内部预测/变换(HiPT),它在可变大小的树块[16],[21],[22]上应用空间内预测和残差DCT,并使用注意优化的卷积神经网络(CNN)[3],[9],[23]进行非线性神经变换。过去的探索建议我们自适应地利用邻域依赖来更好地转换[20],[22]。原创 2023-07-26 19:01:11 · 1737 阅读 · 0 评论 -
端到端的视频编码方法及码率控制算法
深度强化学习结合了深度学习和强化学习各自的优点,能够处理强化学习不能处理的复杂任务。深度强化学习算法主要有基于价值的(Value-based)算法和基于策略的(Policy-based)算法,以及两者的结合演员-批评家(Actor-Critic)算法。原创 2023-07-26 14:34:13 · 2607 阅读 · 0 评论 -
JPEG有损压缩
JPEG把一张图片分割成多个8*8的矩阵,然后把各个元素减去128,使得值域中心为零。取图片某一行,然后每个像素点的值的范围都是0-255,然后把他画成表格。所以压缩的思路就是:去除图片中的高频信息。假设我把左边函数乘以系数-1翻转,那对应的。左上角的系数是最大的,这个性质叫做能量集中。假设我把左边函数进行上下平移,那对应的。假设频率为0,即对应的就是常值信号。假设我把左边函数的振幅增加,那对应。的系数会发生相应的变化,如下图所示。假设我们改变左边函数的频率。这里采样的方式是,0~X0~X7是权重系数。原创 2023-07-12 10:53:25 · 1692 阅读 · 0 评论 -
帧内帧间预测
lib文件(特指随dll文件生成时产生的.lib文件)提供了链接时需要的符号和引用信息。会被完整地复制到最终的可执行文件中,以便在编译和链接过程中正确地引用和链接dll中的目标函数。,包含了类、函数、变量的声明,用于在源代码文件中引用和访问这些声明。当#include 报错时,即为.h文件没正确配置。然后对比使用SVM和没用SVM前后的区别,SVM即一种快速搜索的方法,发现用了SVM后的时间减少了。,包含了编译好的目标代码,在程序运行时被加载进内存中。原创 2023-07-05 22:27:48 · 1777 阅读 · 0 评论 -
END-TO-END OPTIMIZED IMAGE COMPRESSION论文阅读
我们描述了一种图像压缩方法,包括非线性分析变换、均匀量化器和非线性合成变换。这些变换是在卷积线性滤波器和非线性激活函数的三个连续阶段中构造的。与大多数卷积神经网络不同,受用于模拟生物神经元的网络的启发,选择联合非线性来实现一种局部增益控制形式。使用随机梯度下降的变体,我们在训练图像数据库上联合优化整个模型的率失真性能,引入量化器产生的不连续损失函数的连续代理。在某些条件下,松弛损失函数可以解释为由变分自动编码器实现的生成模型的对数似然。原创 2023-07-04 22:39:23 · 3039 阅读 · 0 评论 -
视频编码基础知识及环路滤波
其中,形容结果的两项指标往往联合使用,因为单纯的高质量和单纯的低码率都很难说明编码性能如何,一般公认的是固定单一变量来对比另一个变量,例如相同视频质量下的码率变化率(BD-BR)或相同码率下的 PSNR 变化量(BD-PSNR)。峰值信号的能量与噪声的平均能量之比,通常表示的时候取log变成分贝,由于MSE为真实图像与含噪图像之差的能量均值,而两者的差即为噪声,因此PSNR即峰值信号能量与MSE之比。个人见解:码率一定,即单位时间内使用的数据流量一定,如果分辨率越大,那说明颜色深度越小,就说明越糊?原创 2023-07-04 16:06:44 · 2248 阅读 · 0 评论 -
AOM、VTM初体验及安装tensorflow
当你用不同的语言或者编译器开发一个项目,各就各位code完之后要生成最终的输出(dll 或执行文件),这时候就尴尬了,你要手动去MingGW或者GCC下配置成千上万的.cpp .h .o .c…打个比喻,小明在路边卖煎饼赚了300万准备买房,但是小明这一麻袋的5毛、一块、十块、五十、一百售楼处的小姐姐嫌麻烦不想收这些钱,那怎么办呢?然后进入该文件,要把InputFile的地址改成你测试序列文件的地址,后缀是yuv。查看自己显卡和python的版本,然后安装对应的cuda和cudnn。原创 2023-07-03 19:50:48 · 1689 阅读 · 0 评论 -
视频编码及图像基础知识
视频行业常见的分辨率,我们比较熟悉的360P (640x360)、720P (1280x720)、1080P (1920x1080)、4K (3840x2160)、8K (7680x4320)存储颜色的强度,需要占用一定大小的数据空间,这个大小被称为颜色深度。例如,一段每秒 30 帧,每像素 24 bits,分辨率是 480x240 的视频,如果我们不做任何压缩,它将需要。),那么颜色深度就是 24(8*3)bit(因为RGB三个颜色),我们还可以推导出我们可以使用。第二个参数代表第一行分成几块。原创 2023-07-03 18:50:53 · 2444 阅读 · 0 评论