- 博客(130)
- 收藏
- 关注
原创 SURREAL-GAN:SEMI-SUPERVISED REPRESENTATION LEARNING VIA GAN FOR UNCOVERING HETEROGENEOUS DISEASE-RE
Surreal-GAN:一种解析疾病异质性的半监督表征学习方法 本文提出Surreal-GAN模型,通过从正常对照组到患者组的连续映射变换解析疾病异质性。该模型利用潜变量控制变换方向,并引入逆向映射函数与五种正则化约束(稀疏性、连续性、正交性、单调性和可逆性),确保捕获的影像模式具有临床意义。实验验证表明,该方法能有效揭示阿尔茨海默病等疾病的连续病理维度,优于传统离散聚类方法,为神经影像研究提供了更符合生物学事实的分析工具。模型代码已开源。
2025-11-25 16:37:47
38
原创 DeepQA: A Unified Transcriptome-Based Aging Clock Using Deep Neural Networks
摘要: 本研究针对转录组衰老时钟存在的关键局限——仅在健康样本训练导致对患病个体预测偏差的问题,提出DeepQA,一种基于专家混合架构与新型Hinge-MAE损失函数的深度学习模型。通过同时利用健康与患病个体的异质数据训练,DeepQA显著提升预测精度:在健康个体上MAE比现有方法低1.5年,且是首个能正确处理五类疾病条件的模型。其创新性体现在: 方法学突破:Hinge-MAE损失函数消除健康/患病样本的训练偏差,专家混合架构高效整合多队列数据; 流程革新:摒弃传统基因预筛选步骤,通过显著图分析直接识别衰老
2025-11-19 12:11:02
68
原创 F.grid_sample()函数解析,弄明白采样网格索引是xy还是yx
这段代码通过F.grid_sample实现特征采样,核心操作包括:1) 将坐标(x,y)转为(y,x)格式;2) 添加虚拟维度适配网格采样要求;3) 采样后调整输出为(B,N,C)格式。这些步骤解决了坐标顺序、维度格式和输出形状的匹配问题,是处理离散点采样的典型适配方案,在空间变换任务中常见。
2025-11-18 11:05:49
365
原创 什么是Hinge损失函数
Hinge损失通过惩罚“分类间隔不足”的样本,强制模型学习一个具有鲁棒性的决策边界。然而,在需要强间隔约束或对异常点鲁棒的场景中,Hinge损失仍是值得考虑的选择。它的核心思想是通过惩罚“错误分类且距离决策边界过近”的样本,迫使模型学习一个具有更大间隔的分类超平面。Hinge损失关注的是“分类间隔”,而交叉熵损失关注的是“概率分布匹配”。前者更适合需要强鲁棒性的任务(如SVM),后者更适合需要概率输出的任务(如深度学习分类)。通过最小化Hinge损失的总和(加上L2正则化),SVM实现了。
2025-11-11 19:54:48
1279
原创 【INVSR 代码解析】encode_first_stage函数,以及一个知识点普通编码器与VAE编码器的区别
本文详细解析了Stable Diffusion VAE编码器的实现原理与工作机制。该编码器通过VAE模型将图像数据转换为潜空间表示,支持确定性模式(使用分布均值)和随机模式(采样)两种编码策略。关键处理步骤包括:输入图像的归一化预处理、潜空间统计量初始化、分块编码的内存优化、以及潜变量缩放与标准化。其中分块编码策略可有效降低大batch处理时的内存消耗,而缩放因子则确保潜变量处于适合扩散模型处理的数值范围。该组件在图像生成任务中承担着像素空间到潜空间转换的关键角色,其设计充分考虑了计算效率与功能灵活性的平衡
2025-11-11 15:49:14
668
原创 labelme中的json文件如何转换为txt文件,以及如何将已有的txt文件转换到json文件
本文介绍了Labelme JSON与YOLO TXT格式标注文件的相互转换方法。Labelme JSON包含多边形顶点和图像信息,而YOLO TXT使用归一化坐标表示边界框。文章提供了两种转换方式:1) 使用Python脚本实现批量转换,详细说明了坐标转换逻辑和代码实现;2) 使用现成的labelme2yolo工具快速转换。转换过程中需要注意保持坐标归一化/反归一化的一致性,并正确处理类别ID映射。这些方法可方便目标检测任务中的数据格式转换需求。
2025-11-10 20:20:01
802
原创 如何下载安装以及使用labelme,一个可以打标签的工具,实现数据集处理,详细教程
📌 Labelme安装与使用指南摘要 安装步骤: 通过Anaconda创建独立Python环境(建议Python 3.6-3.8) 激活环境后安装PyQt5和Labelme 输入labelme验证安装成功 标注流程: 加载图片后使用多边形工具描点标注 保存为JSON文件,可通过命令转换为训练可用格式(如PNG标签图) 支持批量转换和带洞目标标注 实用技巧: 预先统一标签名称规范 使用Edit Polygons微调点位 Windows用户需修改源码解决中文乱码问题 最终生成包含原始图、标签图和类别列表的标准
2025-11-10 20:13:01
1518
原创 KeyError ‘LOCAL_RANK‘ KeyError: b‘LOCAL_RANK‘
摘要:出现KeyError: 'LOCAL_RANK'错误,原因是代码尝试获取分布式训练的环境变量LOCAL_RANK失败。解决方案包括:1)使用正确的分布式启动命令torchrun;2)修改代码支持单GPU训练模式;3)检查配置文件是否有误;4)临时设置环境变量测试。该错误表明代码设计为分布式训练但以单进程方式运行,且缺少异常处理机制。建议优先修改代码支持单GPU训练或正确使用分布式启动命令。
2025-11-06 11:34:20
496
原创 Not All Parameters Matter: Masking Diffusion Models for Enhancing Generation Ability
这篇论文发现扩散模型U-Net的参数可以动态选择性使用,并据此提出了MaskUNet。该方法通过智能地“关闭”部分参数,以极小的代价显著提升了图像生成质量,并在权威基准上取得了领先成绩。新颖的发现:首次深入探讨并实证了预训练U-Net中参数、样本和时间步之间的关系,揭示了“参数独立性”的有效性,为高效利用U-Net参数提供了全新视角。创新的方法:提出了MaskUNet框架,通过可学习的掩码动态配置U-Net参数,既提升了模型能力,又保持了其泛化性。并提供了训练和无训练两种灵活的实现路径。广泛的验证。
2025-11-04 21:36:59
780
原创 InvSR:Arbitrary-steps Image Super-resolution via Diffusion Inversion
这篇论文提出了一种名为 InvSR 的新方法,它巧妙地利用预训练扩散模型的强大生成能力来做图像超分辨率。其核心是通过一个学习到的噪声预测器来“聪明地”启动逆向扩散过程,从而用极少的采样步数(最快一步)就能生成高质量的高分辨率图像,在速度和性能上均取得了突破。“不是从零开始‘画’一张高清图,而是找到一个合适的‘半成品’草图,然后快速精修完成。这个“半成品”就是通过部分噪声预测和深度噪声预测器找到的。好的,这是对您提供的论文结论部分的关键信息提炼。结论部分通常比摘要更具体地强调研究的价值、优势和创新点。
2025-11-03 21:15:23
1113
原创 Hyper-Transforming Latent Diffusion Models
通过将隐式神经表征(INR)和基于变换器的超网络整合到潜在变量模型中,提出了一种新颖的生成框架LDMI。之前的方法依赖于基于 MLP 的超网络(hypernetworks),其可扩展性受到限制;与之不同的是,LDMI 采用了基于变换器的解码器,从潜在变量生成 INR 参数,同时解决了表示能力和计算效率的问题。LDMI框架将潜在扩散模型(LDM)扩展到 INR 生成,用基于 Transformer 的超网络取代标准解码器。
2025-10-14 16:06:41
1055
原创 扩散模型-图像编辑【An Edit Friendly DDPM Noise Space: Inversion and Manipulations】
摘要 本文提出了一种改进的扩散概率模型(DDPM)噪声空间反转方法,能够提取完美重建给定图像的噪声序列。与原始噪声空间不同,新方法生成的噪声图具有更高的方差,更利于图像编辑操作。该方法无需优化过程,可快速实现文本引导的图像编辑,同时保持原始图像结构。实验表明,该方法不仅能够单独使用完成多样化的编辑任务,还能与其他扩散编辑算法结合,提升其编辑质量和多样性。新噪声空间虽然不服从标准正态分布且时间步间不独立,但能完美重建图像,并支持平移、色彩调整等有意义操作。在文本条件模型中,固定噪声图修改提示词可实现语义变化而
2025-09-28 16:43:05
1142
原创 扩散模型-上下文学习第一篇【In-Context Learning Unlocked for Diffusion Models】
提示扩散框架,能够在基于扩散的生成模型中实现上下文学习
2025-09-28 16:21:01
722
原创 AI福尔摩斯: LLaVA-ReID: Selective Multi-image Questioner for Interactive Person Re-Identification
**交互式行人重识别(Inter-ReID)创新性地通过多轮对话优化初始描述,更贴合现实场景。本文提出LLaVA-ReID框架,包含三个关键贡献:1)构建Interactive-PEDES数据集,包含粗/细粒度描述和多轮对话;2)开发基于视觉-文本上下文的选择性提问模型;3)采用信息量最大化的问题选择策略。实验表明该方法显著提升检索性能,同时为传统文本行人重识别(T-ReID)带来增益。该研究突破了静态描述的局限,但处理增量式对话描述的能力仍需进一步探索。
2025-09-22 08:56:19
1238
原创 扩散模型入门第四篇【CLASSIFIER-FREE DIFFUSION GUIDANCE】
摘要: 本文提出无分类器引导(classifier-free guidance)方法,用于在扩散模型中实现样本质量与多样性的灵活权衡。传统分类器引导需额外训练分类器并混合其梯度,而本文方法通过联合训练条件/无条件扩散模型,直接混合两者得分估计,达到类似效果。实验表明,该方法无需分类器即可优化IS、FID等指标,且训练仅需随机丢弃条件信息,显著简化流程。讨论指出,无分类器引导通过降低无条件似然提升条件似然,其采样方向与对抗攻击无关,但可能因双重前向传播影响速度。未来可探索架构优化以平衡效率与多样性。 (150
2025-09-22 08:48:24
958
原创 Diffusion Models Beat GANs on Image Synthesis
摘要: 本文提出改进的扩散模型架构与分类器引导技术,在图像生成任务中超越GANs的样本质量。通过优化UNet结构(增加注意力头、多分辨率注意力等)提升无条件生成性能;在条件生成中,引入分类器引导技术,通过调整梯度缩放系数平衡多样性与保真度。实验表明,改进的扩散模型在ImageNet等数据集上取得更优的FID分数,且分类器引导结合上采样技术可进一步提升高分辨率生成质量。代码已开源。 核心贡献: 架构优化:改进UNet结构(多分辨率注意力、自适应组归一化等),显著提升无条件生成性能。 分类器引导:利用分类器梯度
2025-09-14 20:20:19
1013
原创 条件扩散过程(附录H)
摘要 本文研究了基于条件扩散模型的生成过程,提出通过转移算子$p_\theta(x_t|x_{t+1})p_\phi(y|x_t)$实现条件采样。其中$p_\theta$近似去噪过程,$p_\phi$近似带噪样本的标签分布。定义了条件马尔可夫噪声过程$\hat{q}$,证明其无条件行为与原始过程$q$一致。推导表明条件反向过程可表示为$Zq(x_t|x_{t+1})\hat{q}(y|x_t)$,其中$\hat{q}(y|x_t)$可通过训练带噪图像分类器$p_\phi(y|x_t)$近似。该方法为条件生成
2025-09-14 16:11:47
605
原创 DDIM和DDPM之 间的区别与联系
文章摘要 DDIM是DDPM的扩展,采用相同的训练方法,但通过非马尔可夫扩散过程优化采样效率。关键区别在于: 采样速度:DDIM支持跳步采样,大幅减少推理步数(如50步替代1000步)。 确定性:通过参数η=0可消除随机噪声,使生成过程完全确定,相同噪声输入必得相同输出。 数学基础:重新参数化逆向过程,保留DDPM训练目标但支持更灵活的采样策略。 优势包括生成结果可复现、隐空间插值平滑,以及快速高质量采样。DDIM解决了DDPM速度慢的核心痛点,推动了扩散模型的实际应用。 (149字)
2025-09-13 22:04:16
1158
原创 FID(Frechet Inception Distance)、Inception Score(IS)和Precision的具体解释
FID是一种改进的图像生成质量评估指标,它通过比较生成图像和真实图像在特征空间中的分布差异来衡量它们的相似度。这个特征空间通常由Inception模型的一个隐藏层所定义。
2025-09-13 16:05:51
1676
原创 扩散模型入门第二篇【DENOISING DIFFUSION IMPLICIT MODELS】
摘要: 去噪扩散隐模型(DDIM)是一种改进的去噪扩散概率模型(DDPM),通过将生成过程从马尔可夫链推广到非马尔可夫过程,显著提升了采样效率。DDIM 保持了与 DDPM 相同的训练目标,但生成过程可缩短至 10-50 倍步数,同时保持样本质量。此外,DDIM 支持确定性生成,实现隐空间语义插值,并具备一致性特征,即相同初始潜在变量生成相似样本。实验表明,DDIM 在生成速度和质量权衡上优于 DDPM,且与神经常微分方程(ODE)方法兼容,未来可探索更优采样策略。这一方法为高效生成模型提供了新思路,同时保
2025-09-13 15:02:58
1226
原创 扩散模型的优化过程,主要的公式推导,主要是熟悉一下整体的理论框架
扩散模型通过学习去噪过程逆转固定的加噪过程来生成数据。前向过程通过马尔可夫链逐步添加高斯噪声,使数据最终趋于标准高斯分布;反向过程则通过学习参数化的马尔可夫链逐步去噪。核心推导表明真实后验分布也是高斯分布,可通过KL散度优化。通过重参数化技巧,模型转为预测噪声而非均值,简化了损失函数。最终目标是让生成分布逼近真实数据分布,通过变分下界优化实现高质量样本生成。
2025-09-04 20:19:53
1342
2
原创 详细地拆解扩散模型的优化目标,深入探讨为什么选择变分下界(VLB) 以及 它是如何一步步推导得到的
扩散模型通过变分下界(VLB)优化数据生成能力。直接计算对数似然$p_\theta(\mathbf{x}0)$不可行,因此引入前向过程$q(\mathbf{x}{1:T}|\mathbf{x}0)$构建下界。利用Jensen不等式推导出$L{\text{VLB}}$目标,将其分解为三项:重构误差$\mathbb{E}[-\log p_\theta(\mathbf{x}0|\mathbf{x}1)]$、去噪匹配$\sum{t=2}^T D{\text{KL}}(q(\mathbf{x}_{t-1}|\math
2025-09-04 11:21:22
1035
原创 在推导扩散模型的变分下界的时候,为什么q(x1|x0)是合理的,但是p(x0|x1)就没有定义
摘要:扩散模型的反向过程中,$p_\theta(\mathbf{x}_0|\mathbf{x}_1)$看似未定义,源于其特殊性——从带噪图像直接生成离散数据。这一问题通过重新参数化目标得以解决:将优化目标转为预测噪声,并利用真实后验的高斯特性进行匹配。实践表明,$L_0$项对性能影响较小,通常被忽略。若需处理,可采用离散解码器建模。这一精妙设计体现了扩散模型理论推导的巧妙性,将初看未定义的项转化为可解问题。
2025-09-04 11:00:55
805
原创 扩散模型分离L0项的核心原因
扩散模型将最终生成步骤$L_0$与其他去噪步骤分离,主要基于三个原因:首先,$L_{t-1}$处理连续空间中的去噪问题,而$L_0$面临离散/有界的生成任务,两者本质不同;其次,单独处理$L_0$能简化学习目标,使训练更稳定;最后,这种分离提供了实现灵活性,可采用离散化解码器等多种方式处理最终生成。这种设计类似将复杂雕塑任务分解为简单雕刻动作,通过掌握基础操作自然获得整体创作能力。
2025-09-04 10:34:10
500
原创 对所有可能的隐变量进行积分的时候为什么没有x0
在计算数据点$\mathbf{x}_0$的似然时,$\mathbf{x}_0$是观测变量(来自真实数据集),而$\mathbf{x}1$到$\mathbf{x}T$是隐变量(扩散过程中添加的噪声)。边缘似然$p\theta(\mathbf{x}0)$表示考虑所有可能的噪声轨迹后生成$\mathbf{x}0$的总概率,因此需要对隐变量积分:$p\theta(\mathbf{x}0) = \int p\theta(\mathbf{x}{0:T}) d\mathbf{x}{1:T}$。这类似于高斯混合模型中边缘化
2025-09-04 02:00:00
906
原创 在DDPM(扩散模型)中,反向过程为什么不能和前向一样一步解决,另外实际公式推导时反向过程每一步都能得到一个预测值,为什么还要一步一步的推导?
扩散模型的前向过程是一个固定的线性高斯噪声添加过程,可通过数学公式一步计算任意时刻的噪声图像;而反向过程需要逐步学习从噪声中重建图像,无法一步到位。前向过程因线性高斯特性可合并为单步操作,反向过程则必须迭代进行,因为真实图像分布复杂且信息恢复需要逐步细化。虽然反向推导中每一步会预测初始图像,但早期预测模糊,需通过多次迭代逐步优化。前向是确定性的熵增过程,反向是学习性的熵减过程,本质差异决定了反向过程无法像前向过程那样一步完成。
2025-09-03 20:43:52
853
原创 【论文阅读】InnerGS: Internal Scenes Rendering via Factorized 3D Gaussian Splatting
摘要: 本文提出InnerGS,一种基于分解式3D高斯溅射的室内场景渲染方法。针对现有3D高斯溅射(3DGS)技术主要关注物体外部表面建模的局限,研究聚焦室内场景重建这一关键应用场景。通过将3D高斯分布直接用于连续体密度建模,该方法能从稀疏切片数据中高效重建平滑且细节丰富的内部结构。创新性地采用条件2D高斯与沿深度轴的1D高斯相结合的方式构建3D高斯密度,实现无相机姿态依赖的高效渲染。实验表明,该方法适用于MRI、fMRI等多种数据模态,在医学成像等需要精细内部结构的领域展现出良好应用潜力。
2025-09-03 11:52:55
1248
原创 扩散模型入门第一篇【Denoising Diffusion Probabilistic Models】
本文提出了一种基于扩散概率模型(DDPM)的图像生成方法,通过建立扩散过程与去噪分数匹配之间的联系,设计了一种加权变分训练目标。该方法采用马尔可夫链逐步添加/去除高斯噪声,在CIFAR10和LSUN数据集上取得了高质量的生成效果,Inception分数达9.46,FID分数为3.17。研究表明,扩散模型自然地支持渐进式有损解压缩,可视为自回归解码的推广。文章还揭示了扩散模型与变分推断、去噪分数匹配、朗之万动力学之间的理论联系。虽然对数似然表现不及其他生成模型,但扩散模型在图像数据上展现出优异的归纳偏置,为生
2025-08-11 16:30:32
1189
原创 Back to the Features: 附录 E Results
本文通过可视化实验和基准测试评估了世界模型在视频预测和直观物理任务中的表现。图5展示了模型的自回归预测过程,表明其能合理预测周期性运动,但长期预测会因不确定性增加而模糊。图6通过交叉注意力可视化揭示了模型追踪物体运动轨迹的能力。表9报告了不同编码器在IntPhys、GRASP和InfLevel三个物理基准测试中的表现,其中COSMOS在物体恒存性等任务上达到100%准确率,而DINO-world在连续性任务表现突出(88.5%)。这些结果验证了模型在时空预测和物理规律理解方面的能力,同时揭示了不同架构的性能
2025-08-05 10:43:15
813
原创 Back to the Features: 附录 D Action-conditioned fine-tuning and planning
我们使用Zhou等人[18]发布的离线轨迹,对PushT、Wall和PointMaze环境中的视频模型进行带动作条件的微调。这些轨迹由RGB图像、动作和本体感受观测组成。在我们的设置中,我们忽略本体感受观测,仅使用RGB图像和动作。:在Chi等人[68]引入的这个环境中,一个推球智能体与一个T形块进行交互。当智能体和T形块都从随机初始状态到达目标位置时,任务成功。离线轨迹以224×224的分辨率存储。DINO-WM中提供的数据集包含18500个样本,这些样本是原始发布的具有不同噪声水平的专家轨迹的重放。
2025-08-05 09:59:00
937
原创 Back to the Features:附录C Unconditional world model evaluations
这部分内容主要介绍了在 DINOv2 ViT-B/14 模型基础上,针对语义分割和单目深度估计这两种密集预测任务,分别构建线性预测头,并详细阐述了训练和评估的具体流程。
2025-08-04 10:55:26
729
原创 Back to the Features中,直观物理的评价指标是什么,计算方式是什么
共同目标:这些指标都是为了衡量模型在预测任务中的性能。无论是平均绝对误差还是困惑度,本质上都是对模型预测结果与真实情况之间差异的一种量化。它们都反映了模型对数据的学习和预测能力,从这个角度看,具有可比性基础。相对性能评估:在比较不同模型时,我们更关注的是模型之间的相对性能。例如,在相同的实验设置和数据集下,如果一个模型的平均绝对误差明显低于其他模型,或者其困惑度更低,我们可以认为该模型在预测任务中表现更好。即使指标的计算方式不同,但通过相对数值的比较,依然能够判断出哪个模型在整体性能上更优。
2025-08-03 17:16:05
5431
原创 Back to the Features:附录B
为了便于复现我们的结果,我们报告了用于预训练视频世界模型的无标签视频数据集的关键统计信息。具体而言,表6比较了我们数据集与Cityscapes [58]和Something-Something V2 (SSv2) [59]的数据集大小、每秒帧数(FPS)和分辨率。此外,图4中的直方图总结了我们数据集中高度与宽度(宽高比)以及帧数与时长的分布情况。我们数据集中的视频内容多样,涵盖了从烹饪教程到户外场景等广泛的活动。。我们报告了用于预训练视频世界模型的数据集的视频数量、时长、每秒帧数(FPS)和分辨率。!
2025-08-03 17:13:54
772
原创 Back to the Features:附录A
本文介绍了视频预测模型的架构设计与实现细节。视频编码器部分采用DINOv2 ViT-B/14作为主要框架编码器,处理224×224输入图像生成768维的块标记表示。对比实验还测试了SigLIP和Stable Diffusion两种替代编码器。无条件预测器由交叉注意力Transformer模块堆叠而成,通过RoPE方法将时空位置信息(τ,i,j)编码到注意力机制中,时间范围0-5秒,空间位置归一化为0-1。在基于动作的预测设定中,模型通过添加动作模块实现条件预测,每个Transformer模块后接入一个动作处
2025-08-03 16:26:48
5958
原创 Back to the Features中Action-conditioned fine-tuning,这种微调是怎么做的
摘要:本文提出了一种高效将动作信息融入预训练视频世界模型的方法,通过在各计算块后插入可训练的动作块(Action Block)实现动作条件预测。动作块采用残差结构设计,初始化为近似恒等映射,仅需小规模动作标注数据即可微调,同时支持冻结主干网络以避免破坏预训练知识。相比传统动作令牌混合方法,该方案解决了批处理复杂性和灾难性遗忘问题,显著提升了模型在小数据场景下的适应性。实验证明了该方法在保持预训练模型优势的同时,能有效实现动作条件视频预测,为机器人控制等应用提供了实用解决方案。
2025-08-03 15:55:56
527
原创 块三角掩码(Block-Triangular Masking)
确保模型在生成或预测时仅依赖过去信息。这种方法在视频、语音等时序任务中广泛应用,是自回归模型的核心组件之一。(即帧 ( t+1 ) 不能看到同一块内帧 ( t ) 之后的信息),可调整掩码为。其中 ( q_i ) 是查询,( k_j ) 是键,( d_k ) 是键的维度。是一种通过限制注意力机制的可视范围来强制实现。(但通常块内允许全局交互,仅块间严格因果。在视频或时序数据(如帧序列)处理中,即未来帧的键不能影响过去帧的查询。以上内容由文心人工智能生成。允许关注当前及之前块。
2025-08-03 15:40:02
1085
原创 Back to the Features论文中时间帧的优化采样解释
论文确保模型训练时接触多样化的时间跨度,避免偏向短时预测,从而提升对任意未来时间点的泛化能力。这种方法类似于时间维度的数据增强。适合直接复制到 CSDN 博客或 Markdown 编辑器中!强制模型学习不同时间跨度的动态,避免短时预测过拟合。,通过二分查找匹配视频中最近的真实帧时间戳。是独立均匀分布的,例如可能得到序列。,提升对任意未来时间点的预测能力。以上内容由文心人工智能生成。对每个视频,随机生成。(通过时间戳匹配)。
2025-08-03 12:06:18
912
原创 Back to the Features: DINO as a Foundation for Video World Models【精读】
DINO-world:基于潜在空间预测的通用视频世界模型 【研究背景】 世界模型作为AI重要发展方向,传统方法面临三大挑战:数据需求高(需标注动作)、像素建模难度大、评估体系不完善。 【核心创新】 提出新型架构: 在DINOv2冻结编码器的潜在空间训练 分离预训练与动作微调阶段 支持可变帧率/分辨率处理 训练优势: 使用6000万未筛选视频数据 避免像素级建模复杂度 复用DINOv2的语义理解能力 【关键成果】 性能表现: VSPW分割预测任务mIoU提升6.3% 超越现有模型的分割/深度预测能力 展现物理
2025-08-03 10:41:10
1222
原创 Deep Learning_ Foundations and Concepts-Springer (2024)【拜读】20章
本文介绍了扩散模型(Diffusion Models)的基本原理和实现方法。扩散模型通过逐步添加噪声将训练图像转化为高斯分布样本,再训练神经网络逆向该过程生成新图像。其核心思想是固定编码器分布(由加噪过程定义),仅学习生成分布,属于分层变分自编码器的变体。前向编码器部分通过马尔可夫链对图像逐步加噪,其中噪声方差系数βₜ按预设规则递增。扩散核推导表明中间分布具有闭式高斯表达式,支持高效采样和随机梯度下降训练。该模型避免了对抗训练的不稳定性,生成质量优越,但计算成本较高。文章通过公式和概率图详细说明了前向过程和
2025-08-03 10:39:42
1086
A Survey on Evolutionary Computation for Computer Vision
2024-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅