自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(518)
  • 收藏
  • 关注

原创 pd_process.c 文件源码分析

/获取order_hint的位数。// 如果既没有前向参考帧也没有后向参考帧(理论上不应该发生,因为至少应该有前向参考帧),skip_mode_allowed保持为0。// 如果找不到第二个前向参考帧,skip_mode_allowed保持为0,不允许使用skip_mode。// 当前参考帧的order_hint小于第一个前向参考帧(即更早的帧),并且。// 重置第二个参考帧的order hint,准备查找第二个前向参考帧。// 当前参考帧比已找到的第二个前向参考帧更接近第一个前向参考帧。

2025-12-17 11:48:12 365

原创 pd_process.c 文件源码分析

一 pd_process.c 是SVT-AV1编码器中的Picture Decision处理模块,主要功能包括。--使用直方图差异(AHD - Average Historgram Difference)进行检测。PictureParentControlSet *input_pcs, #输入图片控制集指针。PictureParentControlSet *ref_pcs, #参考图片控制集指针。PictureParentControlSet: 图片父控制集,包含图片的所有编码参数。

2025-12-16 16:09:34 338

原创 Dove模型函数分析

三 初始化函数(按调用顺序)(fit()中按顺序调用)六 编码相关函数,子类实现。五 核心训练和验证函数。

2025-12-11 16:39:35 619

原创 leetcode算法-最大乘积子数组

给你一个整数数组 nums ,请你找出数组中乘积最大的非空连续子数组(该子数组中至少包含一个数字),要求返回该子数组所对应的乘积。nums 的任何前缀或后缀的乘积都 保证 是一个 32-位 整数。测试用例的答案是一个 32-位 整数。max_dp (以i结尾的最大积)min_dp (以i结尾的最小积)二 C++代码实现+注释。全局最大积 (res)

2025-12-11 10:34:36 158

原创 transformer和Diffusion模型对比

三 Diffusion示例(简化版图像生成)

2025-12-08 18:32:51 140

原创 LSTM和DenseNet区别

三 DenseNet的数学表示。一 LSTM和DenseNe。

2025-12-05 16:42:07 705

原创 AlexNet 模型Demo

在第一层和第二层卷积层后,分别有一个最大池化层,池化窗口大小为 3x3,步长为 2,这样减少了特征图的尺寸,同时保留了重要特征。第三层 (C3):包含 384个3x3 的卷积核,步长为 1,使用 1 的填充,输出尺寸为 13x13x384。第四层 (C4):包含 384个3x3 的卷积核,步长为 1,使用 1 的填充,输出尺寸为 13x13x384。第五层 (C5):包含 256个3x3 的卷积核,步长为 1,使用 1 的填充,输出尺寸为 13x13x256。

2025-12-04 17:55:48 284

原创 残差网络模型demo

一 Residual Block实现。二 残差连接的核心逻辑。

2025-12-03 19:11:18 210

原创 RNN和残差网络模型的差异

(如ImageNet冠军模型)(如时间序列,文本,语音)(机器翻译,文本生成)(同一层内卷积独立)

2025-12-02 23:42:00 366

原创 Transformer模型demo实现

【代码】Transformer模型demo实现。

2025-12-02 19:36:06 145

原创 MLP多层感知机

下一层(可以是另一个隐藏层或输出层)用PyTorch实现一个简单的MLP。(面积、卧室数,房龄,位置,学区)(如最常用的Adam或SGD)MLP的工作流程:前向传播。二 MLP的核心组成部分。(如识别手写数字0-9)(如隐藏层大小,学习率)(或使用线形激活函数)神经元的详细工作原理。(MNIST数据集)(如CNN,RNN)

2025-11-20 09:42:25 541

原创 x264 cabac编码一个bit

x264。

2025-11-13 19:38:51 192

原创 cabac 二进制编码实现

【代码】cabac 二进制编码实现。

2025-11-13 18:58:45 99

原创 实现一个单链表逆序

【代码】实现一个单链表逆序。

2025-11-12 22:37:03 121

原创 H266 vs VVC标准之仿射运动模型

近年来随着短视频,在线会议等移动视频应用的爆发式普及,全球的视频信息需求快速增长,业界普遍感受到的宽带与存储的家u大压力,极度渴望高性能的视频压缩算法,仍然无法满足业界日益高涨的需求。在视频编码的早期研究当中,人们已经发现平动运动模型并不能有效表示转动,缩放等复杂运动。整体仿射变换,局部仿射变换等方法,试图在视频编码过程中引入仿射运动模型以提高帧间预测的编码效率。尽管学术界对视频编码中仿射运动模型的研究,在很长一段时间内仿射运动模型没能走进视频编码标准。重点介绍VVC中的仿射运动模型技术。

2025-11-10 17:21:36 354

原创 AV1 vs H266仿射运动详细说明

三 H266/VVC中的仿射运动预测。(如64x64,32x32等)二 AV1中的仿射运动预测。(例如4x4或8x8)

2025-11-07 14:29:07 274

原创 H265 vs AV1 vs H266 rdoq对比

下面的表格概括了H265/HEVC, AV1和H266 三个标准在核心技术和复杂度上的整体差异,有助于理解实现高效编码(包括使用RDOQ之类工具)的不同路径。

2025-11-05 16:54:09 371

原创 H265/AV1/H266 帧间搜索对比

在H265(HEVC),AV1和H266(VVC) 这三种主流视频编码标准中,帧间预测技术都在不断演进,核心目标是在提升压缩效率和控制编码复杂度之间取得更好的平衡。128x128或64x64)(四叉,二叉,T型三分等)

2025-11-04 19:49:59 554

原创 H265 vs AV1 vs H266帧内块拷贝差异

(包括去块效应滤波器,约束方向增强滤波器和环路恢复滤波器)二 AV1帧内块拷贝和H266的帧内块拷贝差异。(如64x32,32x64,16x64等)屏幕内容编码(如PPT,屏幕共享)(如64x64, 32x32)128x128或64x64)128x128或64x64)(产生L形等不规则形状)(且满足特定几何关系)

2025-11-04 11:49:28 340

原创 H265 vs av1 vs H266 变换编码差异

多种核心变换(DCT,ADST,Flipped ADST, Identity)矩形:支持2:1/1:2矩形,最高达64x32,32x64。高度自适应:编码器可以为每个块独立选择水平和垂直方向的。正方形4x4到32x32矩形:如4x8,16x32等。一 变换编码差异h265 vs av1。变换编码差异h265 vs h266。更灵活:正方形:4x4到64x64。甚至支持4x16,16x4等。(如32x64,64x32)基于DCT-II的整数变换。

2025-11-04 10:54:20 379

原创 h265 vs av1 vs h266帧内预测差异

这种方法能有效探测并利用图像中的边缘信息,对于计算机生成图形(如软件界面,文字),尤其有效。相比之下,AV1 丰富的划分方式(尤其是T型三分区等) 能更精确的贴合图像中物体的实际轮廓,这是其提升压缩效率的重要基础。而AV1不仅将方向预测模式从8个(VP9)大幅扩展到56个,以更精细的角度捕捉边缘,还引入了多种全新的智能预测模式。上述表格概括了两者在技术路线上的显著差异,下面是一些关键的细节补充,能帮助更深入的理解。划分方式更灵活,支持四分区、三分区(T型),二分区等,允许矩形划分。

2025-11-03 15:27:15 707

原创 优化算法--深度学习中的优化挑战

本章将关注优化算法在最小化目标函数方面的性能而不是模型的泛化误差。在31节中我们区分了优化问题中的解析解和数值解。在深度学习中大多数目标函数都很复杂没有解析解我们必须使用数值优化算法本章中的优化算法都属于此类别。深度学习优化在许多挑战其中最令人烦恼的局部极小值和梯度消失。1局部极小值对于任何目标函数fx)如果在x点对应的fx)值。

2025-10-29 23:41:34 449

原创 Bahdanau注意力

(剔除在注意力池中的填充词元)

2025-10-16 23:31:08 457

原创 transformer-注意力评分函数

batch_size, 1, 键-值对数,num_hiddens)batch_size, 查询数,1,num_hidden)batch_size, 查询数,键-值对数)

2025-10-16 00:04:54 484

原创 注意力机制--Nadaraya-Watson核回归

(标记为Truth)(查询数,键值对数)

2025-10-15 00:23:33 850

原创 注意力机制-10.1.3注意力可视化

下面使用一个简单的例子进行演示,在本例中,仅当查询和键相同时,注意力权重为1,否则为0.受试者使用非自主性和自主性提示有选择地引导注意力,前者基于突出性,后者则依赖意识。注意力机制通过注意力汇聚使得选择偏向于值,其中包含查询和键,键和值是成对的。注意力机制与全连接层或者汇聚层区别源于增加的自主性展示。由于包含自主性提示,注意力机制与全连接层或汇聚层不同。(要现实的行数,要现实的列数,查询数,键数)人类的注意力是有限的,有价值的和稀缺的资源。可视化查询和键之间的注意力权重是可行的。

2025-10-13 23:38:49 258

原创 Transformer Encoder Attention原理

本文详细解析了Transformer模型中Encoder端的Attention机制。通过线性变换将输入词向量转换为Query,Key和Value向量,计算Query与所有Key的点积并经过softmax得到权重,最后用这些权重对Value向量加权求和。这一过程使每个词能够关注输入序列中的其他词,捕捉词与词之间的关系,二 在Transformer中的具体位置。(因为多了一个编码器-解码器注意力子层)Transformer 信息的关联大师。

2025-09-26 18:02:35 675

原创 9.7.3 损失函数

解码器预测了输出词元的概率分布类似于语言模型可以使用softmax来获得分布并通过计算交叉墒损失函数来进行优化。回想一下95节中特定的填充词元被添加到序列的末尾因此不同长度的序列可以以相同形状的小批量加载。但是我们应该将填充词元的预测在损失函数的计算中剔除。我们可以使用下面的sequencemask函数通过零值化屏蔽不想管的。

2025-09-17 23:55:02 924

原创 9.7 序列到序列学习

正如我们在9.5节中看到的,机器翻译中的输入序列和输出序列都是长度可变的,为了解决这类问题,我们在9.6节中设计了一个通用的编码器-解码器架构,在本节中,

2025-09-17 00:13:07 879

原创 9.6 编码器-解码器架构

我们在95节中所讨论的机器翻译时序列转换模型的一个核心问题其输入和输出都是长度可变的序列。为了处理这种类型的输入和输出我们可以设计一个包含两个主要组件的架构。第一个组件是一个编码器接收一个长度可变的序列作为输入并将其转换为具有固定形状的编码状态第二个组件时解码器将固定形状的编码状态映射到长度可变的序列。这被称为编码器解码器架构。

2025-09-16 00:30:52 384

原创 9.5 机器翻译与数据集

注意,每个文本序列可以是一个句子,也可以是包含多个句子的一个段落,在这个将英语翻译成语法的机器翻译问题中,英语是源语言,法语是目标语言。本书的关注点是神经网络机器翻译方法,强调的是端到端的学习,与8.3 节中的语料库是单一语言的语言模型问题不同,机器翻译的数据集是由源语言和目标语言的文本序列对组成的,因此,我们需要一种完全不同的方法来预处理机器翻译数据集,而不是复用语言模型的预处理程序,我们看一下如何将预处理后的数据加载到小批量中用于训练。'X的有效长度', X_valid_len)用空格替换不间断空格。

2025-09-15 23:52:05 548

原创 9.4 双向循环神经网络

我们遗忘假定的目标是在给定观测的情况下在时间序列的上下文中或者在语言模型的上下文中对下一个输出进行建模虽然这是一个典型场景但不是唯一的可能发生什么其他情况考虑以下3个在文本序列中填空的任务。根据可获得的信息我们可以分别用不同的词填空很明显每个短语的下文传达了重要信息而这些信息关乎选择哪个词来填空无法利用这一点的序列模型将在相关任务上面。

2025-09-11 01:09:09 332

原创 9.3深度循环神经网络

目前为止只讨论了具有一个单向隐藏层的循环神经网络其中隐变量和观测值域具体的函数形式的交互方式是相当随意的。只要交互类型建模具有足够的灵活性不是一个单问题。然而对一个单层来说可能具有相当的挑战性。之前的线性模型中我们通过添加更多的层来解决这个问题而在循环神经网络中我们首先需要确定如何添加更多的层以及在哪里添加额外的非线性层。

2025-09-08 23:56:07 371

原创 9.2 长短期记忆网络

隐变量模型存在着长期信息保存的短期输入缺失的问题。解决这一问题的最早方法之一是长短期记忆网络LSTM有许多与门控循环单元一样的属性。有趣的是长短期记忆网络的设计比门控循环单元稍微复杂一些却比门控循环单元早出现了近20年。921门控记忆元长短期记忆网络的设计灵感来自计算机的逻辑门长短期记忆网络引入了记忆元或简称为单元cell。有些文献。

2025-09-08 00:38:52 609

原创 现代循环神经网络

语言模型揭示了序列学习能力的冰山一角,在各种序列学习问题中,如果自动语音识别,文本到语音的转换和机器翻译,输入和输出都是的任意长度的序列,为了阐述如何拟合这种类型的数据,我们将以机器翻译为例介绍基于循环神经网络的编码器-解码器 结构,并用来生成序列。我们从构建这些门控开始,图9-1描述了门控循环单元中的重置门和更新门的输入,输入由当前时间步的输入和前一个时间步的隐状态给出,两个门的前一个时间步的隐状态给出,两个门的输出由使用有sigmoid 激活函数的两个全连接层给出。9.1.1 门控隐状态。

2025-09-07 02:28:12 910

原创 SVT-AV1编码器中实现WPP依赖管理核心调度

self_assigned == TRUE的情况,会创建一个新的任务并放入队列,通知其他工作线程有新的工作可用,这是一种高效的工作窃取Work Stealing和协同机制。1 依赖管理,此函数的核心是管理图像分段间的空间依赖关系,在视频编码中,处理一个编码块通常需要上方,左上方和右上方的块信息。//segmentInOutIndex 输入输出参数,输入时可能是旧的段索引,输出时,如果分配成功,被设置为分配段的索引。//递减右邻居段的依赖计数器,每个段初始时间能有依赖,例如依赖于左上和上方的段。

2025-09-05 19:15:42 920

原创 8.7 通过时间反向传播

我们已经反复提到梯度爆炸或者梯度消失以及需要对循环神经网络分离梯度在85节中我们在序列上调用了detach函数,为了能够快速构建模型并了解其工作原理上面所说的这些概念需要进行充分的解释。更深入的探讨序列模型反向传播的细节以及相关的数学原理。当我们首次实现循环神经网络时遇到了梯度爆炸的问题如果做了练习题就会发现梯度截断对于确保模型收敛。

2025-09-05 00:05:35 631

原创 SVT-AV1 svt_aom_motion_estimation_kernel 函数分析

/ 预取提示级别:_MM_HINT_T0(L1), _MM_HINT_T1(L2), _MM_HINT_T2(L3), _MM_HINT_NTA(非时间局部性)// 计算1/4分辨率图片中对应位置的缓冲区索引(坐标右移1位即除以2)// 设置1/4和1/16分辨率的ME输入缓冲区,已经过滤或抽取。// 获取1/16分辨率下采样图片指针,用于分层运动估计的最粗层。// 加载1/16分辨率抽取的超级块到1/16中间超级块缓冲区。// 获取1/4分辨率下采样图片指针,用于分层运动估计的中层。

2025-09-04 22:31:58 732

原创 AV1 OBU Frame解析

字段名bit数意义1解码器读取该帧的帧头解析frametoshowmapidx字段确定要显示的是DFB中的第几帧根据frametoshowmapidx的索引值在DFB中找到对应的已解码帧。直接将该帧送出以供显示而不需要对当前OBU的负载进行常规的解码过程frame_type1指定帧的类型如KYEFRAME或。

2025-09-03 19:13:29 526

原创 8.6 循环神经网络简洁实现

(时间步数 不等于批量大小,隐单元数)(时间步数x批量大小,词表大小)

2025-09-03 00:09:05 532

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除