fantasy_arch-CSDN博客

原创 SVT-AV1中的global-MV/仿射运动实现分析

这是一个路由函数，router function，根据配置的 correspondence_method, 选择使用哪种方法来收集对应点，correspondences, 对应点是全局运动估计的基础数据。MV方法，(MV_64x64, MV_32x32, MV_16x16/MV_8x8)2 合并阶段，RANSAC算法，将收集到的对应点聚合成全局运动模型。原理：基于图像特征，角点进行匹配，不依赖运动估计结果。优点：更鲁棒，精度高，不依赖ME质量，适合复杂运动。适用场景：复杂运动，ME质量差时，需要高精度时。

2026-01-22 00:00:22 42

原创 AV1全局运动补偿

处理单参考帧GLOBALMV和双参考帧 GLOBAL_GLOBALMV 模式。determine_gm_params() 确定全局运动参数。inject_global_candidates()函数。扭曲运动（Warped Motion）相关实现。RANSAC 算法实现（用于全局运动参数估计）将全局运动候选注入到候选数组。角点检测（用于全局运动估计）角点匹配（用于全局运动估计）全局运动估计的成本计算相关。全局运动使用扭曲运动模型。

2026-01-15 00:18:05 349

原创 SVT-AV1 模式决策函数md_encode_block

inject_intra_candidates() 注入帧内预测候选，DC，方向模式，角度delta。inject_filter_intra_candidates() 注入滤波帧内候选。inject_intra_bc_candidates() 注入帧内复制IBC 候选。svt_aom_inject_inter_candidates() 注入帧间候选。阶段2 候选生成 gernerate_md_stage_0_cand。4 帧间相关，运动估计，ME和预测运动估计PME。双参考帧模式，双向预测。

2026-01-14 19:43:00 61

原创 Stable Diffusion -- DDPM

【代码】Stable Diffusion -- DDPM。

2026-01-09 23:58:16 105

原创 Transformer vs Stable Diffusion vs LLM模型对比

三 Stable Diffusion模型实现示例。二下面我们详细拆解。

2026-01-09 00:02:56 815

原创 AlexNet分析和代码实现

二 AlexNet的网络架构。三 AlexNet创新点。一 AlexNet特点。

2026-01-08 10:13:51 362

原创 U-Net图像分割模型

试图找到潜在的癌性病变，图像分割发挥作用的地方，分割过程用于识别图像中的不同组织和结构，在区分癌细胞和其他正常组织方面发挥着重要作用。U-net 的命名是因为结构类似于字母U，我们在输出端得到分割后的输入图像，U-net的架构师独特的，因为它由收缩路径和扩展路径组成。通常在像素级别进行，通过将图像中具有相似特征的区域分组或定义对象的边界来完成，这是一种识别和解析图像中不同对象或特征的方法。尽管U-Net专注于生物医学图像，其灵活的结构允许它有效的用于其他类型的图像数据。

2026-01-07 00:09:28 734

原创 SVT-AV1帧内编码代码分析

svt_aom_mode_decision_sb 解析。

2026-01-02 10:03:41 453

原创 AV1视频编码位于图像边界的超级块划分

一位于图像边界的超级块划分。

2025-12-31 00:05:07 466

原创 ResNet网络模型

【代码】ResNet网络模型。

2025-12-30 00:25:27 799

原创 SVT-AV1 B帧决策和mini-GOP决策分析

三核心决策函数 calc_mini_gop_activity。二 mini-GOP的决策。

2025-12-29 19:16:19 181

原创 LSTM模型学习分析

一 LSTM：长短期记忆网络LSTM。

2025-12-25 00:48:16 303

原创 AI入门-徒手写个CNN-识别数字

【代码】AI入门-徒手写个CNN-识别数字。

2025-12-23 23:19:41 108

原创 SVT-AV1帧类型决策-场景切换检测

功能：图像决策核心函数，这是Picture Decision处理阶段的主入口函数。8 将处理好的图片发送到后续处理阶段Motion Estimation等。场景切换（Scene Change）：既不是闪光也不是淡入淡出。2 管理图片重排序队列，因为多线程处理可能导致图片乱序到达。参数：input_ptr 线程上下文指针，包含线程私有数据。淡入淡出（Fade）：当前帧与未来帧、过去帧都接近。void * 线程函数返回值，这里返回NULL。闪光：未来帧-过去帧，但当前帧差异大。（在场景切换处插入I帧）

2025-12-23 19:42:24 406

原创 pd_process.c 文件源码分析

/获取order_hint的位数。// 如果既没有前向参考帧也没有后向参考帧（理论上不应该发生，因为至少应该有前向参考帧），skip_mode_allowed保持为0。// 如果找不到第二个前向参考帧，skip_mode_allowed保持为0，不允许使用skip_mode。// 当前参考帧的order_hint小于第一个前向参考帧（即更早的帧），并且。// 重置第二个参考帧的order hint，准备查找第二个前向参考帧。// 当前参考帧比已找到的第二个前向参考帧更接近第一个前向参考帧。

2025-12-17 11:48:12 387

原创 pd_process.c 文件源码分析

一 pd_process.c 是SVT-AV1编码器中的Picture Decision处理模块，主要功能包括。--使用直方图差异（AHD - Average Historgram Difference）进行检测。PictureParentControlSet *input_pcs, #输入图片控制集指针。PictureParentControlSet *ref_pcs, #参考图片控制集指针。PictureParentControlSet: 图片父控制集，包含图片的所有编码参数。

2025-12-16 16:09:34 360

原创 Dove模型函数分析

三初始化函数（按调用顺序）（fit()中按顺序调用）六编码相关函数，子类实现。五核心训练和验证函数。

2025-12-11 16:39:35 633

原创 leetcode算法-最大乘积子数组

给你一个整数数组 nums ，请你找出数组中乘积最大的非空连续子数组（该子数组中至少包含一个数字），要求返回该子数组所对应的乘积。nums 的任何前缀或后缀的乘积都保证是一个 32-位整数。测试用例的答案是一个 32-位整数。max_dp (以i结尾的最大积)min_dp (以i结尾的最小积)二 C++代码实现+注释。全局最大积 (res)

2025-12-11 10:34:36 170

原创 transformer和Diffusion模型对比

三 Diffusion示例（简化版图像生成）

2025-12-08 18:32:51 189

原创 LSTM和DenseNet区别

三 DenseNet的数学表示。一 LSTM和DenseNe。

2025-12-05 16:42:07 715

原创 AlexNet 模型Demo

在第一层和第二层卷积层后，分别有一个最大池化层，池化窗口大小为 3x3，步长为 2，这样减少了特征图的尺寸，同时保留了重要特征。第三层 (C3)：包含 384个3x3 的卷积核，步长为 1，使用 1 的填充，输出尺寸为 13x13x384。第四层 (C4)：包含 384个3x3 的卷积核，步长为 1，使用 1 的填充，输出尺寸为 13x13x384。第五层 (C5)：包含 256个3x3 的卷积核，步长为 1，使用 1 的填充，输出尺寸为 13x13x256。

2025-12-04 17:55:48 293

原创残差网络模型demo

一 Residual Block实现。二残差连接的核心逻辑。

2025-12-03 19:11:18 225

原创 RNN和残差网络模型的差异

（如ImageNet冠军模型）（如时间序列，文本，语音）（机器翻译，文本生成）（同一层内卷积独立）

2025-12-02 23:42:00 383

原创 Transformer模型demo实现

【代码】Transformer模型demo实现。

2025-12-02 19:36:06 162

原创 MLP多层感知机

下一层（可以是另一个隐藏层或输出层）用PyTorch实现一个简单的MLP。（面积、卧室数，房龄，位置，学区）（如最常用的Adam或SGD）MLP的工作流程：前向传播。二 MLP的核心组成部分。（如识别手写数字0-9）（如隐藏层大小，学习率）（或使用线形激活函数）神经元的详细工作原理。（MNIST数据集）（如CNN，RNN）

2025-11-20 09:42:25 594

原创 x264 cabac编码一个bit

x264。

2025-11-13 19:38:51 197

原创 cabac 二进制编码实现

【代码】cabac 二进制编码实现。

2025-11-13 18:58:45 115

原创实现一个单链表逆序

【代码】实现一个单链表逆序。

2025-11-12 22:37:03 135

原创 H266 vs VVC标准之仿射运动模型

近年来随着短视频，在线会议等移动视频应用的爆发式普及，全球的视频信息需求快速增长，业界普遍感受到的宽带与存储的家u大压力，极度渴望高性能的视频压缩算法，仍然无法满足业界日益高涨的需求。在视频编码的早期研究当中，人们已经发现平动运动模型并不能有效表示转动，缩放等复杂运动。整体仿射变换，局部仿射变换等方法，试图在视频编码过程中引入仿射运动模型以提高帧间预测的编码效率。尽管学术界对视频编码中仿射运动模型的研究，在很长一段时间内仿射运动模型没能走进视频编码标准。重点介绍VVC中的仿射运动模型技术。

2025-11-10 17:21:36 384

原创 AV1 vs H266仿射运动详细说明

三 H266/VVC中的仿射运动预测。(如64x64,32x32等)二 AV1中的仿射运动预测。(例如4x4或8x8)

2025-11-07 14:29:07 318

原创 H265 vs AV1 vs H266 rdoq对比

下面的表格概括了H265/HEVC, AV1和H266 三个标准在核心技术和复杂度上的整体差异，有助于理解实现高效编码(包括使用RDOQ之类工具)的不同路径。

2025-11-05 16:54:09 409

原创 H265/AV1/H266 帧间搜索对比

在H265(HEVC),AV1和H266(VVC) 这三种主流视频编码标准中，帧间预测技术都在不断演进，核心目标是在提升压缩效率和控制编码复杂度之间取得更好的平衡。128x128或64x64)(四叉，二叉，T型三分等)

2025-11-04 19:49:59 705

原创 H265 vs AV1 vs H266帧内块拷贝差异

(包括去块效应滤波器，约束方向增强滤波器和环路恢复滤波器)二 AV1帧内块拷贝和H266的帧内块拷贝差异。(如64x32,32x64,16x64等)屏幕内容编码（如PPT,屏幕共享）（如64x64, 32x32）128x128或64x64)128x128或64x64)（产生L形等不规则形状）（且满足特定几何关系）

2025-11-04 11:49:28 363

原创 H265 vs av1 vs H266 变换编码差异

多种核心变换(DCT,ADST,Flipped ADST, Identity)矩形：支持2:1/1:2矩形，最高达64x32,32x64。高度自适应：编码器可以为每个块独立选择水平和垂直方向的。正方形4x4到32x32矩形：如4x8,16x32等。一变换编码差异h265 vs av1。变换编码差异h265 vs h266。更灵活：正方形：4x4到64x64。甚至支持4x16,16x4等。(如32x64,64x32)基于DCT-II的整数变换。

2025-11-04 10:54:20 406

原创 h265 vs av1 vs h266帧内预测差异

这种方法能有效探测并利用图像中的边缘信息，对于计算机生成图形(如软件界面，文字)，尤其有效。相比之下，AV1 丰富的划分方式(尤其是T型三分区等) 能更精确的贴合图像中物体的实际轮廓，这是其提升压缩效率的重要基础。而AV1不仅将方向预测模式从8个(VP9)大幅扩展到56个，以更精细的角度捕捉边缘，还引入了多种全新的智能预测模式。上述表格概括了两者在技术路线上的显著差异，下面是一些关键的细节补充，能帮助更深入的理解。划分方式更灵活，支持四分区、三分区(T型)，二分区等，允许矩形划分。

2025-11-03 15:27:15 761

原创优化算法--深度学习中的优化挑战

本章将关注优化算法在最小化目标函数方面的性能而不是模型的泛化误差。在31节中我们区分了优化问题中的解析解和数值解。在深度学习中大多数目标函数都很复杂没有解析解我们必须使用数值优化算法本章中的优化算法都属于此类别。深度学习优化在许多挑战其中最令人烦恼的局部极小值和梯度消失。1局部极小值对于任何目标函数fx)如果在x点对应的fx)值。

2025-10-29 23:41:34 468

原创 Bahdanau注意力

（剔除在注意力池中的填充词元）

2025-10-16 23:31:08 463

原创 transformer-注意力评分函数

batch_size, 1, 键-值对数，num_hiddens)batch_size, 查询数，1，num_hidden)batch_size, 查询数，键-值对数)

2025-10-16 00:04:54 500

原创注意力机制--Nadaraya-Watson核回归

(标记为Truth)(查询数，键值对数)

2025-10-15 00:23:33 868

原创注意力机制-10.1.3注意力可视化

下面使用一个简单的例子进行演示，在本例中，仅当查询和键相同时，注意力权重为1，否则为0.受试者使用非自主性和自主性提示有选择地引导注意力，前者基于突出性，后者则依赖意识。注意力机制通过注意力汇聚使得选择偏向于值，其中包含查询和键，键和值是成对的。注意力机制与全连接层或者汇聚层区别源于增加的自主性展示。由于包含自主性提示，注意力机制与全连接层或汇聚层不同。（要现实的行数，要现实的列数，查询数，键数）人类的注意力是有限的，有价值的和稀缺的资源。可视化查询和键之间的注意力权重是可行的。

2025-10-13 23:38:49 274

空空如也

空空如也