- 博客(156)
- 资源 (10)
- 收藏
- 关注
原创 改进型DDPM技术全解析:更快采样、更优似然的扩散模型突破
去噪扩散概率模型(DDPM)是生成式AI领域的重要突破,其核心思想模拟了一个"逐步加噪-逐步去噪"的过程。想象一下:将一张清晰图片逐步添加噪声,直到完全变成随机噪点,然后训练神经网络学习如何逆向这个过程,从噪声中重建原图。然而,原始DDPM存在三大痛点:架构基础与创新:本文在原始DDPM的UNet架构基础上进行了重要改进,构建了更强大的特征提取网络。核心创新包括:注意力机制增强:QKT)V条件注入方式革新:具体架构配置:1.2.2 智能方差学习:让模型自己决定"去噪步长"原理解读:传统的DD
2026-02-10 11:45:13
896
原创 DALL-E 2技术基石: GLIDE扩散模型架构
扩散模型最近被证明能够生成高质量的合成图像,尤其是当与一种指导技术配对时,可以在多样性和保真度之间进行权衡。我们探索了扩散模型在文本条件图像合成问题上的应用,并比较了两种不同的指导策略:CLIP指导和分类器无关指导。我们发现,人类评估者更倾向于后者在照片真实感和标题相似性方面的表现,并且它经常产生照片般真实的样本。使用分类器无关指导的35亿参数文本条件扩散模型的样本,人类评估者更偏好于DALL-E的样本,即使后者使用了昂贵的CLIP重排序。
2026-02-10 11:11:41
886
原创 DALL-E 3:如何通过重构“文本描述“革新图像生成
我们证明,通过在高度描述性的生成图像描述文本上进行训练,可以显著提高文本到图像模型的提示跟随能力。现有的文本到图像模型难以遵循详细的图像描述,经常忽略词语或混淆提示的含义。我们假设这个问题源于训练数据集中嘈杂和不准确的图像描述文本。我们通过训练一个定制的图像描述生成器并利用它重新标注训练数据集来解决这个问题。随后我们训练了几个文本到图像模型,发现基于这些合成描述文本进行训练能够可靠地提高提示跟随能力。
2026-02-05 21:19:07
1080
原创 DALL-E 2:从CLIP潜变量到高质量图像生成的突破
对比模型如CLIP已被证明能够学习图像的鲁棒表征,同时捕捉语义和风格。一个先验模型,根据文本标题生成CLIP图像嵌入;以及一个解码器,根据图像嵌入生成图像。我们表明,显式生成图像表征能够在保持照片真实感和标题相似性的同时,显著提高图像多样性。我们基于图像表征的条件解码器还能够生成图像的变体,这些变体在保留语义和风格的同时,改变图像表征中缺失的非必要细节。此外,CLIP的联合嵌入空间使得能够以零样本方式实现语言引导的图像操作。
2026-02-05 20:30:21
1208
原创 DALL-E的前身:零样本文本到图像生成技术解析
文本到图像生成传统上专注于为在固定数据集上训练找到更好的建模假设。这些假设可能涉及复杂的架构、辅助损失或在训练期间提供的侧面信息,例如对象部分标签或分割掩码。我们描述了一种基于变换器的简单方法,该变换器自回归地将文本和图像标记建模为单一数据流。在足够的数据和规模下,我们的方法在以零样本方式评估时与先前的领域特定模型相比具有竞争力。
2026-02-04 18:57:34
621
原创 SD3.0 + 核心技术:Rectified Flow Transformers 让文生图更快更强
Stable Diffusion 3.0+(SD3.0+)作为Stability AI继SDXL后的新一代文生图标杆模型,其核心突破完全依托Meta团队《Scaling Rectified Flow Transformers for High-Resolution Image Synthesis》论文提出的整流流Transformer(Rectified Flow Transformers)技术体系。不同于SDXL对传统扩散模型的局部优化,SD3.0+通过“整流流生成范式+MM-DiT多模态架构”的双重革新
2026-02-04 16:42:43
1438
原创 深入解析 Stable Diffusion XL(SDXL):改进潜在扩散模型,高分辨率合成突破
技术维度自回归模型(VQGAN+Transformer)核心公式/表示生成方式非自回归(扩散)非自回归(扩散)自回归(序列建模)pz∝Nz;μσ2pz∝Nz;μσ2UNet架构8.6亿参数,固定Transformer块数26亿参数,异构Transformer块分布无UNet,采用Transformer序列建模nln_lnl固定/nl∈0210nl∈0210/$p(z_i文本编码单一CLIP编码器,τy∈R。
2026-02-03 19:07:50
1801
原创 深入解析Stable Diffusion基石——潜在扩散模型(LDMs)
通过将图像形成过程分解为去噪自编码器的顺序应用,扩散模型(DMs)在图像数据及其他领域实现了最先进的合成结果。此外,它们的公式允许一种引导机制来控制图像生成过程而无需重新训练。然而,由于这些模型通常直接在像素空间操作,强大DMs的优化往往消耗数百个GPU天,且推理因顺序评估而昂贵。为了在有限计算资源上实现DM训练,同时保持其质量和灵活性,我们将其应用于强大预训练自编码器的潜在空间。与先前工作相比,在这种表示上训练扩散模型首次实现了复杂度降低和细节保留之间的近最优平衡,大大提升了视觉保真度。
2026-02-03 18:03:06
667
原创 一文读懂位置编码:Transformer的“序列导航仪”
在Transformer架构主导NLP、CV、音频等领域的今天,有一个组件常常被提及却容易被忽略——位置编码(Position Encoding)。它不像自注意力机制那样耀眼,却是Transformer能“读懂”序列数据的关键,堪称模型的“序列导航仪”。$B_{i,j} = -设计理念多尺度三角函数数据驱动学习相对位置建模旋转不变性频率平滑缩放线性距离惩罚主要优点1. 多尺度感知2. 理论外推3. 无参数1. 任务自适应2. 实现简单3. 表示力强1. 显式相对编码2. 长
2026-02-02 19:33:58
1000
原创 预训练任务全解析:从掩码语言建模到多模态学习
预训练任务的设计是AI模型获取通用能力的关键。从NLP的MLM到CV的MIM,从单模态到多模态,任务设计日益精巧高效。这些任务不仅推动了技术进步,也深化了我们对智能本质的理解。随着任务设计的不断创新,AI模型将具备更全面、更深刻的世界理解能力,向通用人工智能的目标稳步迈进。
2026-01-30 20:45:17
820
原创 掩码自编码器(MAE):重新定义视觉自监督学习
本文表明,掩码自编码器(MAE)是计算机视觉中可扩展的自监督学习者。我们的MAE方法很简单:我们掩码输入图像的随机块并重建缺失的像素。它基于两个核心设计。首先,我们开发了一种非对称编码器-解码器架构,其中编码器仅作用于可见的图像块子集(不带掩码标记),同时配备一个轻量级解码器,从潜在表示和掩码标记重建原始图像。其次,我们发现,对输入图像进行高比例的掩码(例如75%)会产生一个不平凡且有意义自监督任务。结合这两种设计使我们能够高效且有效地训练大型模型:我们加速了训练(3倍或更多)并提高了准确率。
2026-01-30 20:35:49
932
原创 CLIP:连接图像与文本的 AI 核心工具
想象一下,你教孩子认识了“马”、“老虎”和“熊猫”,然后给他看一张“斑马”的图片,他从未见过斑马。但你告诉他:“斑马看起来像马,身上有像老虎一样的条纹,颜色像熊猫是黑白的。”他很可能就能认出斑马。零样本学习(Zero-Shot Learning, ZSL)正是让机器拥有这种“举一反三”的能力。让模型识别在训练阶段从未见过的类别。传统监督学习:模型只能识别训练时见过的类别。训练集有猫、狗、汽车,模型就只会区分这三类。零样本学习。
2026-01-20 19:04:12
603
原创 Vision Transformer (ViT):当Transformer遇见图像,CV的范式革命
Vision Transformer不仅仅是一个新的图像分类模型,它更代表了一种思维范式的转变——用统一的Transformer架构来处理不同模态的数据。它模糊了NLP与CV之间的界限,推动了基础模型和多模态AI的研究热潮。虽然CNN因其高效和成熟,在诸多场景中仍不可替代,但ViT及其家族无疑为我们指明了一个充满潜力的方向:一个更加通用、统一、能够融会贯通地理解世界的AI架构。未来,也许我们不再需要为“视觉任务”和“语言任务”设计截然不同的模型大脑,而只需一个更强大的、基于注意力的统一心智。
2026-01-13 21:26:23
641
原创 深入浅出解析自然语言处理的核心——分词器
想象一下,你要教一个刚来地球的外星人学中文。你直接扔给他一整本《红楼梦》,他肯定会崩溃。更合理的方法是,先教他认识单个的汉字、词语,再理解句子。对于计算机而言,我们就是那个“外星人”。它只认识数字(0和1)。分词器的核心任务,就是完成例如:句子。
2026-01-13 21:19:37
769
原创 马尔可夫链蒙特卡洛(MCMC)——用随机探索破解复杂概率分布
MCMC方法之美在于它将两个看似简单的概念——蒙特卡洛随机抽样和马尔可夫链——结合成一个强大的工具,解决了贝叶斯推断中的核心计算难题。正如我们的探险家通过随机游走最终能找到宝藏分布一样,MCMC让我们能够在高维、复杂的概率空间中进行有效探索。从Metropolis-Hastings的接受-拒绝机制到Gibbs采样的条件更新策略,这些算法为我们提供了在不同场景下应对挑战的工具。虽然MCMC不是万能的,但它无疑是现代统计学和机器学习中不可或缺的工具。
2026-01-07 19:06:47
860
原创 变分推断:用简单分布逼近复杂世界的艺术
从追求精确解转向寻求实用近似。在现实世界的复杂问题中,完美往往是好的敌人。通过接受近似,我们获得了可扩展性、速度和实用性。就像绘制城市地图:我们可能永远无法知道每一条小巷的精确位置,但一张"足够好"的地图已经能让我们高效导航。变分推断就是为我们绘制这种"足够好"的概率地图的工具。它教会我们,在面对不确定性时,有时大胆近似比谨慎精确更有价值。在这个数据爆炸的时代,这种思想比以往任何时候都更加重要。“所有模型都是错的,但有些是有用的。变分推断正是这一思想的完美体现:我们明知道近似分布qzq(z)q。
2026-01-07 19:02:27
661
原创 EM算法详解:解密“鸡生蛋“的机器学习困局
假设我们有一些数据点,它们来自KKK每个数据点来自哪个分布每个分布的参数(均值μk\mu_kμk,方差σk2\sigma_k^2σk2每个分布的混合权重πk\pi_kπk这就是聚类问题的典型场景:数据点天然形成几个簇,我们想找出这些簇的特征,并把每个点分配到合适的簇中。当信息不完整时,我们可以先做出合理的假设(E步),然后基于这些假设优化模型(M步),再用优化后的模型改进假设,如此循环。
2026-01-07 18:57:50
630
原创 随机变量及其分布:深入理解概率模型的基础
随机变量及其分布构成了概率论与统计学的核心框架,为我们描述和分析不确定性提供了统一的数学语言。从简单的伯努利试验到复杂的联合分布,从离散计数到连续测量,这一理论体系不断发展完善,成为现代数据科学和机器学习的基石。
2026-01-06 18:54:20
984
原创 论文解读:Denoising Diffusion Probabilistic Models(DDPM,去噪扩散概率模型)
在深度学习领域,生成模型一直被视为皇冠上的明珠。从早期的变分自编码器(VAE)和生成对抗网络(GAN),到强大的自回归模型(如PixelCNN),研究者们一直在探索如何让机器学会“创造”。2020年,Google Research的Jonathan Ho等人在论文《Denoising Diffusion Probabilistic Models》中提出了一种新的生成模型——去噪扩散概率模型,它不仅能够生成高质量图像,更在理论上建立了与去噪得分匹配、朗之万动力学等多种方法的深刻联系。DDPM的核心思想既直观又
2026-01-04 17:35:23
995
原创 # PyTorch 中 `nn.ModuleList` 详解
是 PyTorch 中一个重要的,用于存储和管理多个nn.Module对象。与普通的 Python 列表不同,专门为神经网络模块设计,提供了关键的功能。
2025-12-29 19:18:39
404
原创 Transformer位置编码的数学奥秘:从高维正交性到多尺度设计
核心观点:位置编码与输入嵌入相加是一种高效的、数学上优雅的信息融合方式,其合理性源于高维空间中向量的近似正交性。考虑输入嵌入E∈Rn×dE∈Rn×d和位置编码P∈Rn×dP∈Rn×d,其中nnn是序列长度,ddd是嵌入维度。拼接方式E;P∈Rn×2d[E;E;P∈Rn×2d,维度加倍相加方式EP∈Rn×dEP∈Rn×d,维度不变相加的优势。
2025-12-29 19:07:43
1215
原创 DeepDream:窥视神经网络内部世界的梦幻之窗
在人工智能的发展历程中,2015年是一个重要的转折点。当大多数研究者还在专注于如何让神经网络更好地图像时,Google Research团队却反其道而行之,提出了一项突破性的技术——。这项技术不仅让我们能够"窥视"神经网络的内部世界,更开创了AI生成艺术的先河。这个看似简单的问题,却引领了一场神经网络可视化和AI艺术创作的革命。
2025-12-26 21:37:43
1051
原创 StyleGAN系列:从可控生成到完美等变的进化之路
在ProGAN成功突破高分辨率图像生成的技术壁垒后,NVIDIA的研究团队并没有停下脚步,他们继续推出了StyleGAN系列模型,将生成对抗网络推向了新的高度。StyleGAN不仅解决了ProGAN的一些固有缺陷,更开创了的新范式。
2025-12-25 19:44:23
1219
原创 渐进式GAN (ProGAN):高分辨率图像生成的革命
(Progressive Growing of GANs)由Tero Karras等人于2017年提出,是首个能够稳定生成的生成对抗网络。在它之前,生成高分辨率图像如同攀登珠峰,既危险又困难;在它之后,高分辨率图像生成成为标准配置。
2025-12-24 22:20:30
893
1
原创 生成对抗网络(GAN):从博弈到创造的艺术
特性自编码器(AE)变分自编码器(VAE)生成对抗网络(GAN)核心思想压缩重建概率生成对抗博弈训练目标最小化重建误差最大化ELBO极小极大博弈生成方式解码器重建从先验分布采样解码从噪声生成图像质量模糊,细节丢失较模糊,多样性有限清晰,逼真训练稳定性非常稳定稳定不稳定潜在空间无结构结构化(高斯)无显式结构可解释性中等高低评估难度容易(重建误差)中等(ELBO)困难(无明确指标)主要应用降维,去噪数据生成,表示学习高质量生成,风格迁移。
2025-12-23 20:57:50
794
1
原创 PyTorch优化器完全指南
在深度学习中,。想象你在一座高山上寻找最低点(全局最小点),梯度告诉你下山的方向,而——是小心谨慎地一小步一小步走,还是大胆地跳跃前进?
2025-12-23 20:31:52
570
原创 自编码器与变分自编码器:【3】从确定性到概率性 - 变分自编码器的革命
人类能从几个像素识别一张脸,能从几个音符听出一段旋律,能从几个词语理解一段情感。这种从有限信息中理解整体的能力,正是表示学习的核心目标。自编码器(Autoencoder)和变分自编码器(Variational Autoencoder)就是在这种背景下诞生的两种重要模型。它们不仅是深度学习中的重要组成部分,更是通往和的关键桥梁。
2025-12-22 22:35:52
1290
原创 自编码器与变分自编码器:【2】自编码器的局限性
二、代码结果分析2.1 潜在空间分布图潜在空间的无序性:从图中可见,10类服装数据的潜在表示散布在横轴-15到10、纵轴-10到10的广阔范围内,远超红色虚线框标识的标准正态分布范围(±3σ)。问题显现:启示:潜在空间缺乏先验约束,难以从已知分布中采样生成有效样本。重建能力评估:图中对比了原始服装图像与自编码器重建结果,展示出自编码器的核心能力。观察要点:结论:自编码器学会了关键特征的压缩表示,但受限于信息瓶颈,无法完美重建细节。生成能力测试:从不同范围的潜在空间随机采样,测试自编码器的生成能力。结果
2025-12-22 22:32:34
673
原创 解密GPT的生成魔法:自回归模型 (附:手搓最简单的GPT Demo)
当你和AI聊天时,它回答的每句话,其实都是一个字一个字“猜”出来的。它只做一件事:根据已经说出的所有字,猜出下一个最可能的字。你问:“今天天气?”AI心里在猜:看到“今天天气” → 猜下一个是 “很”。看到“今天天气很” → 猜下一个是 “好”。看到“今天天气很好” → 猜下一个是 “。”于是回答诞生了:“今天天气很好。”这个“每次只猜下一个字”的简单规则,就是自回归模型。它支撑着所有智能对话AI的回答。自回归模型的核心思想可以用一个优雅的公式表达:P(x1,x2,...,xT)=∏t=1TP(xt∣x1
2025-12-15 22:24:31
1135
1
原创 nn.Embedding:从离散符号到连续表示
映射功能:将离散的整数索引(如词汇ID)转换为连续的向量表示表示学习:通过训练学习每个符号的分布式表示维度转换:从一维的索引空间到高维的连续向量空间。
2025-12-11 21:39:22
1010
原创 交叉熵与KL散度
交叉熵(Cross-Entropy)源于信息论,是衡量两个概率分布之间差异的指标。在机器学习中,我们用它来衡量模型预测的概率分布与真实的标签分布之间的差异。任务类型预测值形状目标值形状说明标准分类(N, C)(N,)最常见情况序列标注(N, C, L)(N, L)L为序列长度图像分割(N, H, W)像素级分类3D分割体积数据分类关键规则:目标值总是比预测值少一个维度,少的是类别维度(C)。
2025-12-09 21:24:22
1004
原创 从 One-Hot 到 GPT:语言模型的演进之路
在人工智能的众多分支中,自然语言处理(NLP)一直是最具挑战性的领域之一。要让机器理解、生成人类语言,核心在于解决两个基本问题:核心思想:马尔可夫假设,一个词的出现只依赖于前面n−1n-1n−1个词。数学模型:P(w1w2…wm)≈∏P(wi)P(w_1 w_2 \ldots w_m) \approx \prod P(w_i)P(w1w2…wm)≈∏P(wi)P(w1w2…wm)≈P(w1)∏P(wi∣wi−1)P(w_1 w_2 \ldots w_m) \approx P(w_1) \pro
2025-12-09 20:54:31
857
1
原创 论文解读 -- MusicFM:A FOUNDATION MODEL FOR MUSIC INFORMATICS
本文研究了专为音乐信息学量身定制的基础模型,该领域目前面临标注数据稀缺和泛化问题的挑战。为此,我们对各种基础模型变体进行了深入的比较研究,考察了关键决定因素,如模型架构、标记化方法、时间分辨率、数据和模型可扩展性。本研究旨在通过阐明这些个体因素如何促进基础模型在音乐信息学中的成功,来弥合现有的知识空白。采用谨慎的评估框架,我们评估了这些模型在音乐信息检索中各种下游任务上的性能,特别关注标记级和序列级分类。我们的结果表明,我们的模型展现出强大的性能,在特定关键指标上超越了现有模型。
2025-10-13 19:28:07
1176
原创 论文解读 -- MERT: ACOUSTIC MUSIC UNDERSTANDING MODEL WITH LARGE-SCALE SELF-SUPERVISED TRAINING
自监督学习(SSL)最近在视觉、文本和语音领域的大规模数据训练可泛化模型方面 emerged 作为一个有前途的范式。尽管SSL在语音和音频上已被证明有效,但其在音乐音频中的应用尚未被彻底探索。这部分是由于建模音乐知识,特别是音乐的调性和音高特性,所带来的独特挑战。为了解决这一研究空白,我们提出了一个声学音乐理解模型 with large-scale self-supervised Training(MERT),它 incorporated 教师模型来在掩码语言建模(MLM)风格的声学预训练中提供伪标签。
2025-10-13 18:05:03
682
原创 论文解读 -- MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization
近年来,基于自监督学习(SSL)预训练的基础模型在各种音乐信息学理解任务中取得了成功,包括音乐标签分类、乐器分类、调性检测等。本文提出了一种用于音乐理解的自监督音乐表示学习模型。与先前采用随机投影或现有神经编解码器的研究不同,该模型名为 MuQ,通过预测由梅尔残差向量量化(Mel-RVQ)生成的标记进行训练。我们的 Mel-RVQ 利用残差线性投影结构对梅尔频谱进行量化,以增强目标提取的稳定性和效率,并带来更好的性能。
2025-10-13 15:39:17
675
原创 音频特征提取算法介绍
线性频率fff到梅尔频率fmf_mfmfm2595⋅log101f700fm2595⋅log101700f特性低频段:梅尔刻度变化缓慢,分辨率高高频段:梅尔刻度变化迅速,分辨率低符合人耳对音高的感知特性。
2025-10-13 12:08:20
1206
原创 深度学习基本模块:MultiheadAttention 多头注意力机制
多头注意力机制(MultiheadAttention)是Transformer的核心组件,通过并行计算多个注意力头,使模型能同时捕捉输入序列中不同表示子空间的信息。该机制将输入特征分割到多个子空间独立计算注意力,再合并结果,显著增强了序列建模能力。其可学习参数包括投影权重和偏置项,支持灵活配置嵌入维度和注意力头数。输入输出采用(batch, seq, feature)格式,可应用于自注意力、交叉注意力等场景。PyTorch实现中,MultiheadAttention层不限定输入来源,可根据任务需求设计查询、
2025-10-11 12:55:33
1072
论文翻译:A Perceptually-Motivated Approach for Low-Complexity, Real-Time Enhancement of Fullband Speech
2025-04-02
AEC论文解读 - MULTI-TASK DEEP RESIDUAL ECHO SUPPRESSION WITH ECHO-AWARE LOSS
2024-12-09
AEC论文解读 - MULTI-SCALE TEMPORAL FREQUENCY CONVOLUTIONAL NETWORK WITH AXIAL ATTENTION FOR SPEECH ENHA
2024-12-09
AEC论文解读 - A Deep Hierarchical Fusion Network for Fullband Acoustic Echo Cancellation
2024-12-09
AEC论文解读 - RESIDUAL ACOUSTIC ECHO SUPPRESSION BASED ON EFFICIENT MULTI-TASK CONVOLUTIONAL NEURAL NET
2024-12-06
AEC论文解读 - ACOUSTIC ECHO CANCELLATION WITH THE DUAL-SIGNAL TRANSFORMATION LSTM NETWORK
2024-12-04
AEC论文解读 - Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios
2024-12-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅