- 博客(28)
- 资源 (7)
- 收藏
- 关注
原创 【AIGC】DDPM scheduler解析:扩散模型里的“调度器”到底在调什么?
扩散模型中的调度器(scheduler)核心功能是预计算所有时间步的加噪/去噪系数,避免实时计算的开销。以DDPM为例,其通过线性β调度生成噪声方差β_t,并衍生出α_t(保留率)、ᾱ_t(累积保留率)等关键张量,用于控制前向加噪过程(如公式$x_t = \sqrt{ᾱ_t}x_0 + \sqrt{1-ᾱ_t}ε$)和反向去噪的权重分配。代码中通过向量化一次性计算sqrt_recip_alphas、posterior_variance等8个核心张量,实现高效索引。理解这些系数的物理意义(如√ᾱ_t控
2025-08-17 13:56:19
114
原创 【AI-Infra】深入 Nano-vLLM
Nano-vLLM是一个轻量级大模型推理引擎实现,其设计核心包含三个关键模块: LLM引擎通过step()方法驱动"调度→推理→后处理"的循环流程,动态协调请求处理 调度器采用动态批处理策略,优先处理prefill请求,在KV缓存不足时执行抢占机制,确保GPU高利用率 KV缓存管理创新性地实现前缀缓存,通过块哈希复用相同prompt的计算结果,显著提升prefill效率。该系统以约1200行Python代码实现了大模型推理的核心优化技术,包括PagedAttention、动态批
2025-08-15 16:42:31
658
原创 【深度学习基础】贝叶斯理论
本文系统介绍了贝叶斯理论在深度学习中的核心内容。首先建立概率论与信息论基础,包括概率三元组、KL散度等概念。重点阐述贝叶斯定理、共轭先验、变分推断和蒙特卡洛方法等核心理论。随后探讨贝叶斯神经网络、深度生成模型中的贝叶斯组件,以及高斯过程和贝叶斯优化等应用。最后介绍PAC-Bayes理论、近似推断技巧和可扩展贝叶斯方法。文章为深度学习中的贝叶斯方法提供了从基础理论到实际应用的全方位指导,包含重要公式推导和实用代码实现建议。
2025-08-11 16:03:24
771
原创 【深度学习基础】概率论
本文系统梳理了深度学习研究者必备的概率论知识,从基础的概率空间与测度论,到关键概念如条件概率、Bayes定理、期望方差,再到常用分布族和信息论量。重点解析了多元高斯、变分推断、蒙特卡洛方法等深度学习核心工具,并特别强调重参数化技巧在反向传播中的关键作用。每个知识点均提供理论定义、在DL中的典型应用场景及延伸阅读资料,为研究者构建坚实的概率基础框架。
2025-08-06 01:32:56
939
原创 【具身智能】Surge AI创始人访谈:为何他认为合成数据不是未来?
**摘要:**Surge AI作为数据标注领域的隐形巨头,在没有融资的情况下实现10亿美元年营收,服务对象包括Google、OpenAI等科技巨头。创始人Edwin Chen提出独特见解:1)反对为融资而创业,认为初期应专注产品而非融资;2)强调高质量"写诗"级数据的价值,而非传统"画框"式标注;3)质疑合成数据的实际效用,指出其泛化能力不足;4)批评LMArena等模型评测机制导致"点击诱饵"式优化。Chen认为AI的真正价值在于赋能顶尖人才,而
2025-08-04 16:50:54
451
原创 【具身智能】深入解析 102 个模型、26 个数据集与 12 个仿真平台
万字长文综述:VLA模型引领机器人技术革命 这篇综述系统梳理了视觉-语言-动作(VLA)模型领域的最新进展,分析了102个模型、26个数据集和12个仿真平台。VLA模型通过整合视觉感知、语言理解和机器人控制三大能力,正在推动机器人技术从专用脚本向通用智能体转变。文章详细解构了VLA模型的四大技术支柱:Transformer架构、视觉Transformer(ViT)、大语言模型(LLM)和视觉语言模型(VLM),并剖析了主流VLA架构的组成模块和关键趋势。研究发现,虽然视觉和语言编码器趋于标准化,但动作解码器
2025-07-30 10:59:42
734
1
原创 【具身智能】智源大会 Physical Intelligence CEO分享
智源大会Physical Intelligence:π0 VLA通用机器人模型技术解析 2025年标志着机器人领域"预训练大模型"时代的到来,π0 VLA作为首个可商用的通用机器人模型,通过1万小时跨本体数据预训练和20小时任务特定数据微调,实现零样本操作能力。技术架构上,π0将视觉语言模型(VLM)与动作解码器结合,采用离散化动作token预测机制,在叠衣服等任务中达到92%成功率。RT-X开源数据集提供50TB跨机构数据支持,实验显示预训练可使新环境任务成功率提升28.5%。尽管动态
2025-07-26 00:30:11
687
原创 【具身智能】Sporks of AGI 阅读笔记
UC伯克利教授Sergey Levine指出,当前机器人领域过度依赖仿真、人类视频等替代真实机器人数据,但这种做法将解决方案锁定在狭窄的交集区域。随着模型能力提升,这些手工设计的映射关系反而会成为性能瓶颈。真正的通用机器人大模型必须基于机器人在真实世界自主执行任务的数据,仿真和人类视频只能作为预训练素材。
2025-07-23 18:01:52
1104
原创 【MAC】 安装Nginx、更改端口号及停止 Nginx 服务教程
本文介绍了在Mac上安装、配置和管理Nginx服务的完整流程。主要内容包括:1)使用Homebrew一键安装Nginx;2)通过修改nginx.conf配置文件更改默认端口号(8080改为其他端口);3)使用命令行停止Nginx服务的两种方法。文章还提供了常见问题的解决方案,如端口冲突、防火墙限制和配置文件错误等。适用于需要在本地开发环境中快速部署和配置Nginx的开发人员。
2025-07-22 10:51:38
540
原创 【Anaconda】Conda 虚拟环境打包迁移教程
本文介绍使用conda-pack工具打包和迁移Conda虚拟环境的完整流程。首先需安装conda-pack工具(可通过conda或pip安装),然后使用conda pack -n 环境名 -o 输出文件命令打包环境。将生成的压缩包复制到目标电脑后,解压到conda的envs目录下即可完成迁移。最后通过conda env list验证迁移结果,迁移后的环境包含所有依赖包无需重新安装。文中还提供了国内镜像安装、权限问题等实用提示。
2025-07-20 14:03:48
1127
原创 深入浅出:从零构建基于分数的生成模型
基于分数的生成模型(如扩散模型)通过噪声扰动数据分布,利用分数匹配学习梯度信息,结合朗之万动力学实现高质量样本生成。该框架克服了传统生成模型的"三难困境",在样本质量、训练稳定性和似然评估间取得平衡。核心理论包含:1)分数函数(数据分布对数概率的梯度)规避了归一化常数难题;2)分数匹配通过等价形式学习真实分布梯度;3)去噪自编码与分数匹配的深刻联系;4)朗之万动力学利用分数函数实现采样。
2025-06-27 14:44:45
878
原创 大模型量化技术:从理论到实践深度解析
大语言模型(LLM)面临存储空间大、计算资源需求高、能耗高等挑战。量化技术通过将高精度浮点权重转换为低精度整数,有效解决了这些问题。本文系统探讨了量化技术的核心原理与应用。 量化技术主要应对三大瓶颈:显存容量限制、内存带宽不足及高能耗问题。其核心价值在于大幅压缩模型体积(如FP32转INT8可缩至1/4)、提升推理速度并降低能耗。
2025-06-25 16:38:39
1044
原创 深入GPU编程:从硬件架构到内核优化
本文深入探讨GPU编程的核心优化技术,从硬件架构到性能调优。首先解析GPU的物理结构,包括流式多处理器(SM)和CUDA编程模型的三层抽象(线程、线程块、网格),揭示其高吞吐量的设计哲学。重点分析Warp执行机制和SIMT模型,说明延迟隐藏原理。随后详细讲解GPU多层内存架构(全局内存、共享内存、寄存器等)的访问模式和优化策略。最后介绍前沿性能优化技术,如Tensor Core和NCCL通信库。
2025-06-25 11:45:06
1185
原创 从像素到可能性:解构 Stable Diffusion 与 Sora 背后的 VAE 技术
现代生成式AI(如Stable Diffusion和Sora)的核心技术基础是变分自编码器(VAE)。文章系统梳理了VAE的技术谱系:从经典自编码器的数据压缩能力,到正则化自编码器的鲁棒性改进;重点解析了VAE如何通过概率化潜空间和ELBO目标实现高质量生成,以及关键的重参数化技巧;介绍了VAE的多种变体(如VQ-VAE、条件VAE)如何解决后验坍塌等问题;最后阐述了VAE在Stable Diffusion中作为潜在扩散模型的核心组件,以及在Sora中充当"视觉分词器"的关键作用。这一技
2025-06-24 19:25:07
1047
原创 DiT:从理论到实践,一文深入浅出带你学习Diffusion Transformer
DiT模型使用Transformer作为其主干网络,替代了传统的U-Net架构。这些模型在Latent Space中训练,通过变换器处理潜在的图像块(patches)。其中,每个tokens在序列中都有一个隐藏维度d,即向量大小。
2025-01-16 15:48:45
1829
原创 Meta人体AI模型 Sapiens:High-resolution models for human tasks
Meta公司一直是图像和视频模型开发的先锋,最近他们推出了一项名为Meta Sapiens的新模型,专注于与人类相关的任务。与Homo sapiens(智人)相似,Meta Sapiens模型旨在理解和模拟人类行为,包括理解身体姿势、识别身体部位、预测深度,甚至确定皮肤纹理等表面细节。本文将详细解析Meta Sapiens模型的三大支柱、技术实现以及代码实践。
2024-12-18 11:27:16
1177
1
原创 FLOPs、FLOPS和Params的含义、计算及其在PyTorch中的使用
在深度学习领域,模型的效率和复杂度是衡量算法性能的重要指标。FLOPs、FLOPS和Params是三个关键概念,它们分别代表了模型的计算量、计算速度和参数量。本文将详细解释这些概念,并展示如何在PyTorch中计算它们,以便更好地理解和优化我们的模型。
2024-11-08 11:14:31
1419
原创 【代码解析】用PyTorch实现混合专家(MoE)语言模型
DeepSeek-V2是一个具有2360亿参数的开源混合专家(MoE)语言模型,每个令牌激活21亿参数,支持最大128K令牌的上下文长度。在开源模型中,DeepSeek-V2实现了顶级性能,成为最强大的开源MoE语言模型之一。在MMLU(多模态机器学习)基准测试中,DeepSeek-V2以较少的激活参数实现了顶尖的性能。与前代模型DeepSeek 67B相比,DeepSeek-V2显著提升了性能,降低了42.5%的训练成本,减少了93.3%的KV缓存,并将最大生成吞吐量提高了5.76倍。
2024-10-26 23:56:15
1557
原创 【Linux运维】根据指令名称杀死进程
进程是计算机中正在执行的程序实例,是系统中最基本的执行单位之一。每个进程都有自己的进程标识符(PID),用于唯一标识和识别该进程。pkill是一个强大的工具,可以帮助你管理和控制系统中的进程。通过掌握其用法和技巧,以及相关的进程管理工具,你可以更有效地解决系统故障、优化资源利用,并实现自动化任务。希望本文能帮助你更好地理解和使用pkill命令。
2024-10-19 21:07:21
1040
原创 【算法解析】扩散模型中的Noise Scheduler技术解析
通过上述分析,我们可以看到Noise Scheduler在扩散模型中扮演着至关重要的角色。它不仅负责将噪声图像逐步还原为原始图像,还通过引入随机性来增加生成图像的多样性。DDPM作为扩散模型的一个经典实现,其模型和调度器的设计为我们提供了深入理解扩散模型的窗口。
2024-10-06 17:03:10
2531
原创 【论文阅读】MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance
置信度感知:通过分析姿态估计的置信度,我们能够识别并减少不准确的预测对最终结果的影响。手部区域增强:我们特别关注手部区域的姿态估计,通过增加该区域的损失权重来改善手部变形问题。位置感知的Latent融合:我们提出了一种逐步融合latent vector的方法,以增强视频帧之间的时序平滑性。
2024-10-06 16:31:32
780
1
原创 【算法解析】为什么在训练时使用DDPM,而在采样时使用DDIM
本文讨论Stable Diffusion背后的两种关键技术:DDPM(Denoising Diffusion Probabilistic Models)和DDIM(Denoising Diffusion Implicit Models),并解释为什么在训练时使用DDPM,而在采样时使用DDIM。
2024-09-24 19:43:11
2150
原创 LoRA微调及其在多任务学习中的应用
LoRA微调技术不仅提升了参数和计算效率,而且通过合理的模型合并策略,使得大型语言模型能够在有限的资源条件下支持多任务处理。随着研究的不断深入,我们期待LoRA及其他高效微调方法在未来能够在更多的应用场景中发挥更大的作用,推动人工智能技术的发展和创新。
2024-09-21 18:50:03
962
原创 大模型加载多个LoRA并灵活切换
LoRA是一种有效的模型适配技术,它通过在模型的权重矩阵中引入低秩结构来实现参数的高效更新。这种方法不仅减少了模型的存储需求,还加快了训练速度,使得在资源有限的情况下微调大型模型成为可能。
2024-09-21 16:22:07
3782
原创 处理 pip 安装时的哈希值不匹配问题
在 Python 开发的广阔天地中,使用 pip 来安装第三方库是家常便饭。但有时候,我们可能会遇到一个令人头疼的问题:“这些包与需求文件中的哈希值不匹配”。这个错误提示我们,下载的包的哈希值与 requirements 文件中指定的哈希值不一致。这究竟是怎么一回事?我们又该如何解决呢?
2024-09-19 11:43:40
2403
原创 Linux Shell中的输入输出重定向技巧
在Linux系统中,掌握输入输出重定向是一项基本而强大的技能。通过使用特定的符号,我们可以灵活地控制数据的流向。标准输入(文件描述符0)、标准输出(文件描述符1)和标准错误输出(文件描述符2)是Linux Shell环境中的三个基本通道。
2024-09-07 16:19:18
463
1
原创 yolov3在windows及linux上的编译
yolov3在windows及linux上的编译文章目录yolov3在windows及linux上的编译windows配置linux配置windows配置从github或gitee上下载darknet安装包 ,注意windows一定要下载压缩包,通过git clone会出错。下载链接:https://gitee.com/ml_x/darknet下载后进行解压,根据需要对压缩包中的Makefile进行编写。只需设置如下代码段:GPU=0 # 如果有GPU就设置为1CUDNN=0 # 同上O
2021-02-14 17:21:19
439
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人