- 博客(164)
- 收藏
- 关注
原创 Wenet--离线语音识别 快速上手体验
WeNet 提供了封装好的 Python 包,安装极其简单。这只是一个运行时库,包含了预训练模型和推理接口,非常适合快速使用。它会自动安装核心依赖,如 PyTorch。
2026-03-27 16:06:05
123
原创 Vibe Coding 时代:我的思考与程序员的未来之路
定义和发现问题的能力,将比解决问题的能力更重要。过去,程序员的核心价值在于“解决问题”——给定一个明确的需求,我们运用技术知识找到实现路径。但在 AI 能够快速生成多种解决方案的今天,那个能够精准洞察需求、界定问题边界、将模糊的痛点转化为清晰、可执行指令的人,才是价值链条的起点与核心。AI 是强大的“解器”(Solver),但它需要一个高质量的“问题陈述”。这意味着,未来的顶尖开发者,必须是优秀的“问题架构师”。深度理解业务与用户:跳出技术视角,真正理解我们要用技术解决什么“人”的问题。
2026-03-23 20:26:12
306
原创 从信号到文字:语音识别(ASR)技术链路解析
梅尔滤波器组特征(FBank)- 现代深度学习ASR的主流输入FBankkmln∑i∣Xim∣2⋅HkiϵFBankkmlni∑∣Xim∣2⋅Hkiϵ其中HkiH_k(i)Hki为第kkk个梅尔滤波器在频点iii的权重。梅尔频率倒谱系数(MFCC)- 传统GMM-HMM ASR的标准特征Cn∑k1KlogMk⋅cosnk−12πKn01N−1C。
2026-03-17 17:56:26
739
原创 ASR学习路径(音频算法工程师专属)
掌握端到端ASR模型原理,跳过传统GMM-HMM。你的深度学习经验将使你快速上手。:将你的音频前端处理能力与ASR模型深度结合,打造差异化项目,这是你简历的亮点。:将你的音频处理知识无缝对接到ASR框架,建立全局认知,并跑通第一个Demo。这并非从零开始,而是优势赛道切换。ASR系统的核心瓶颈在于“:根据职业兴趣选择方向深化,并系统梳理知识,完成求职包装。
2026-03-17 17:26:48
312
原创 面经投稿:AI音频算法专家(医疗硬件方向)
本文基于(网友投稿)一场AI音频算法专家与医疗硬件初创公司技术合伙人的面试实录,去敏化处理后,系统梳理了高频考点、隐性问题与深层考察逻辑。
2026-02-27 11:58:21
444
原创 语言模型困惑度
语言模型的核心任务是计算一个词序列Ww1w2wN的出现概率。PWPw1w2wNi1∏NPwi∣w1wi−1Pwi∣w1wi−1w1wi−1wi困惑度是语言模型性能评估的核心指标,定义为PPWi1∏NPwi∣w1wi−1−N1其中Ww1w2wN为测试序列,Pwi∣。
2026-02-26 19:26:22
759
原创 深度学习:激活函数大全
在深度学习中,激活函数(Activation Function)是神经网络的核心组件之一。如果没有激活函数,无论网络堆叠多少层,都只是,最终输出仍是输入的线性组合。。激活函数的主要价值在于。
2026-02-22 23:34:35
2153
1
原创 改进型DDPM技术全解析:更快采样、更优似然的扩散模型突破
去噪扩散概率模型(DDPM)是生成式AI领域的重要突破,其核心思想模拟了一个"逐步加噪-逐步去噪"的过程。想象一下:将一张清晰图片逐步添加噪声,直到完全变成随机噪点,然后训练神经网络学习如何逆向这个过程,从噪声中重建原图。然而,原始DDPM存在三大痛点:架构基础与创新:本文在原始DDPM的UNet架构基础上进行了重要改进,构建了更强大的特征提取网络。核心创新包括:注意力机制增强:QKT)V条件注入方式革新:具体架构配置:1.2.2 智能方差学习:让模型自己决定"去噪步长"原理解读:传统的DD
2026-02-10 11:45:13
1013
原创 DALL-E 2技术基石: GLIDE扩散模型架构
扩散模型最近被证明能够生成高质量的合成图像,尤其是当与一种指导技术配对时,可以在多样性和保真度之间进行权衡。我们探索了扩散模型在文本条件图像合成问题上的应用,并比较了两种不同的指导策略:CLIP指导和分类器无关指导。我们发现,人类评估者更倾向于后者在照片真实感和标题相似性方面的表现,并且它经常产生照片般真实的样本。使用分类器无关指导的35亿参数文本条件扩散模型的样本,人类评估者更偏好于DALL-E的样本,即使后者使用了昂贵的CLIP重排序。
2026-02-10 11:11:41
956
原创 DALL-E 3:如何通过重构“文本描述“革新图像生成
我们证明,通过在高度描述性的生成图像描述文本上进行训练,可以显著提高文本到图像模型的提示跟随能力。现有的文本到图像模型难以遵循详细的图像描述,经常忽略词语或混淆提示的含义。我们假设这个问题源于训练数据集中嘈杂和不准确的图像描述文本。我们通过训练一个定制的图像描述生成器并利用它重新标注训练数据集来解决这个问题。随后我们训练了几个文本到图像模型,发现基于这些合成描述文本进行训练能够可靠地提高提示跟随能力。
2026-02-05 21:19:07
1206
原创 DALL-E 2:从CLIP潜变量到高质量图像生成的突破
对比模型如CLIP已被证明能够学习图像的鲁棒表征,同时捕捉语义和风格。一个先验模型,根据文本标题生成CLIP图像嵌入;以及一个解码器,根据图像嵌入生成图像。我们表明,显式生成图像表征能够在保持照片真实感和标题相似性的同时,显著提高图像多样性。我们基于图像表征的条件解码器还能够生成图像的变体,这些变体在保留语义和风格的同时,改变图像表征中缺失的非必要细节。此外,CLIP的联合嵌入空间使得能够以零样本方式实现语言引导的图像操作。
2026-02-05 20:30:21
1281
原创 DALL-E的前身:零样本文本到图像生成技术解析
文本到图像生成传统上专注于为在固定数据集上训练找到更好的建模假设。这些假设可能涉及复杂的架构、辅助损失或在训练期间提供的侧面信息,例如对象部分标签或分割掩码。我们描述了一种基于变换器的简单方法,该变换器自回归地将文本和图像标记建模为单一数据流。在足够的数据和规模下,我们的方法在以零样本方式评估时与先前的领域特定模型相比具有竞争力。
2026-02-04 18:57:34
675
原创 SD3.0 + 核心技术:Rectified Flow Transformers 让文生图更快更强
Stable Diffusion 3.0+(SD3.0+)作为Stability AI继SDXL后的新一代文生图标杆模型,其核心突破完全依托Meta团队《Scaling Rectified Flow Transformers for High-Resolution Image Synthesis》论文提出的整流流Transformer(Rectified Flow Transformers)技术体系。不同于SDXL对传统扩散模型的局部优化,SD3.0+通过“整流流生成范式+MM-DiT多模态架构”的双重革新
2026-02-04 16:42:43
1619
原创 深入解析 Stable Diffusion XL(SDXL):改进潜在扩散模型,高分辨率合成突破
技术维度自回归模型(VQGAN+Transformer)核心公式/表示生成方式非自回归(扩散)非自回归(扩散)自回归(序列建模)pz∝Nz;μσ2pz∝Nz;μσ2UNet架构8.6亿参数,固定Transformer块数26亿参数,异构Transformer块分布无UNet,采用Transformer序列建模nln_lnl固定/nl∈0210nl∈0210/$p(z_i文本编码单一CLIP编码器,τy∈R。
2026-02-03 19:07:50
2063
原创 深入解析Stable Diffusion基石——潜在扩散模型(LDMs)
通过将图像形成过程分解为去噪自编码器的顺序应用,扩散模型(DMs)在图像数据及其他领域实现了最先进的合成结果。此外,它们的公式允许一种引导机制来控制图像生成过程而无需重新训练。然而,由于这些模型通常直接在像素空间操作,强大DMs的优化往往消耗数百个GPU天,且推理因顺序评估而昂贵。为了在有限计算资源上实现DM训练,同时保持其质量和灵活性,我们将其应用于强大预训练自编码器的潜在空间。与先前工作相比,在这种表示上训练扩散模型首次实现了复杂度降低和细节保留之间的近最优平衡,大大提升了视觉保真度。
2026-02-03 18:03:06
868
原创 一文读懂位置编码:Transformer的“序列导航仪”
在Transformer架构主导NLP、CV、音频等领域的今天,有一个组件常常被提及却容易被忽略——位置编码(Position Encoding)。它不像自注意力机制那样耀眼,却是Transformer能“读懂”序列数据的关键,堪称模型的“序列导航仪”。$B_{i,j} = -设计理念多尺度三角函数数据驱动学习相对位置建模旋转不变性频率平滑缩放线性距离惩罚主要优点1. 多尺度感知2. 理论外推3. 无参数1. 任务自适应2. 实现简单3. 表示力强1. 显式相对编码2. 长
2026-02-02 19:33:58
1074
原创 预训练任务全解析:从掩码语言建模到多模态学习
预训练任务的设计是AI模型获取通用能力的关键。从NLP的MLM到CV的MIM,从单模态到多模态,任务设计日益精巧高效。这些任务不仅推动了技术进步,也深化了我们对智能本质的理解。随着任务设计的不断创新,AI模型将具备更全面、更深刻的世界理解能力,向通用人工智能的目标稳步迈进。
2026-01-30 20:45:17
860
原创 掩码自编码器(MAE):重新定义视觉自监督学习
本文表明,掩码自编码器(MAE)是计算机视觉中可扩展的自监督学习者。我们的MAE方法很简单:我们掩码输入图像的随机块并重建缺失的像素。它基于两个核心设计。首先,我们开发了一种非对称编码器-解码器架构,其中编码器仅作用于可见的图像块子集(不带掩码标记),同时配备一个轻量级解码器,从潜在表示和掩码标记重建原始图像。其次,我们发现,对输入图像进行高比例的掩码(例如75%)会产生一个不平凡且有意义自监督任务。结合这两种设计使我们能够高效且有效地训练大型模型:我们加速了训练(3倍或更多)并提高了准确率。
2026-01-30 20:35:49
1108
原创 CLIP:连接图像与文本的 AI 核心工具
想象一下,你教孩子认识了“马”、“老虎”和“熊猫”,然后给他看一张“斑马”的图片,他从未见过斑马。但你告诉他:“斑马看起来像马,身上有像老虎一样的条纹,颜色像熊猫是黑白的。”他很可能就能认出斑马。零样本学习(Zero-Shot Learning, ZSL)正是让机器拥有这种“举一反三”的能力。让模型识别在训练阶段从未见过的类别。传统监督学习:模型只能识别训练时见过的类别。训练集有猫、狗、汽车,模型就只会区分这三类。零样本学习。
2026-01-20 19:04:12
692
原创 Vision Transformer (ViT):当Transformer遇见图像,CV的范式革命
Vision Transformer不仅仅是一个新的图像分类模型,它更代表了一种思维范式的转变——用统一的Transformer架构来处理不同模态的数据。它模糊了NLP与CV之间的界限,推动了基础模型和多模态AI的研究热潮。虽然CNN因其高效和成熟,在诸多场景中仍不可替代,但ViT及其家族无疑为我们指明了一个充满潜力的方向:一个更加通用、统一、能够融会贯通地理解世界的AI架构。未来,也许我们不再需要为“视觉任务”和“语言任务”设计截然不同的模型大脑,而只需一个更强大的、基于注意力的统一心智。
2026-01-13 21:26:23
738
原创 深入浅出解析自然语言处理的核心——分词器
想象一下,你要教一个刚来地球的外星人学中文。你直接扔给他一整本《红楼梦》,他肯定会崩溃。更合理的方法是,先教他认识单个的汉字、词语,再理解句子。对于计算机而言,我们就是那个“外星人”。它只认识数字(0和1)。分词器的核心任务,就是完成例如:句子。
2026-01-13 21:19:37
860
原创 马尔可夫链蒙特卡洛(MCMC)——用随机探索破解复杂概率分布
MCMC方法之美在于它将两个看似简单的概念——蒙特卡洛随机抽样和马尔可夫链——结合成一个强大的工具,解决了贝叶斯推断中的核心计算难题。正如我们的探险家通过随机游走最终能找到宝藏分布一样,MCMC让我们能够在高维、复杂的概率空间中进行有效探索。从Metropolis-Hastings的接受-拒绝机制到Gibbs采样的条件更新策略,这些算法为我们提供了在不同场景下应对挑战的工具。虽然MCMC不是万能的,但它无疑是现代统计学和机器学习中不可或缺的工具。
2026-01-07 19:06:47
907
原创 变分推断:用简单分布逼近复杂世界的艺术
从追求精确解转向寻求实用近似。在现实世界的复杂问题中,完美往往是好的敌人。通过接受近似,我们获得了可扩展性、速度和实用性。就像绘制城市地图:我们可能永远无法知道每一条小巷的精确位置,但一张"足够好"的地图已经能让我们高效导航。变分推断就是为我们绘制这种"足够好"的概率地图的工具。它教会我们,在面对不确定性时,有时大胆近似比谨慎精确更有价值。在这个数据爆炸的时代,这种思想比以往任何时候都更加重要。“所有模型都是错的,但有些是有用的。变分推断正是这一思想的完美体现:我们明知道近似分布qzq(z)q。
2026-01-07 19:02:27
700
原创 EM算法详解:解密“鸡生蛋“的机器学习困局
假设我们有一些数据点,它们来自KKK每个数据点来自哪个分布每个分布的参数(均值μk\mu_kμk,方差σk2\sigma_k^2σk2每个分布的混合权重πk\pi_kπk这就是聚类问题的典型场景:数据点天然形成几个簇,我们想找出这些簇的特征,并把每个点分配到合适的簇中。当信息不完整时,我们可以先做出合理的假设(E步),然后基于这些假设优化模型(M步),再用优化后的模型改进假设,如此循环。
2026-01-07 18:57:50
652
原创 随机变量及其分布:深入理解概率模型的基础
随机变量及其分布构成了概率论与统计学的核心框架,为我们描述和分析不确定性提供了统一的数学语言。从简单的伯努利试验到复杂的联合分布,从离散计数到连续测量,这一理论体系不断发展完善,成为现代数据科学和机器学习的基石。
2026-01-06 18:54:20
1029
原创 论文解读:Denoising Diffusion Probabilistic Models(DDPM,去噪扩散概率模型)
在深度学习领域,生成模型一直被视为皇冠上的明珠。从早期的变分自编码器(VAE)和生成对抗网络(GAN),到强大的自回归模型(如PixelCNN),研究者们一直在探索如何让机器学会“创造”。2020年,Google Research的Jonathan Ho等人在论文《Denoising Diffusion Probabilistic Models》中提出了一种新的生成模型——去噪扩散概率模型,它不仅能够生成高质量图像,更在理论上建立了与去噪得分匹配、朗之万动力学等多种方法的深刻联系。DDPM的核心思想既直观又
2026-01-04 17:35:23
1251
原创 # PyTorch 中 `nn.ModuleList` 详解
是 PyTorch 中一个重要的,用于存储和管理多个nn.Module对象。与普通的 Python 列表不同,专门为神经网络模块设计,提供了关键的功能。
2025-12-29 19:18:39
459
原创 Transformer位置编码的数学奥秘:从高维正交性到多尺度设计
核心观点:位置编码与输入嵌入相加是一种高效的、数学上优雅的信息融合方式,其合理性源于高维空间中向量的近似正交性。考虑输入嵌入E∈Rn×dE∈Rn×d和位置编码P∈Rn×dP∈Rn×d,其中nnn是序列长度,ddd是嵌入维度。拼接方式E;P∈Rn×2d[E;E;P∈Rn×2d,维度加倍相加方式EP∈Rn×dEP∈Rn×d,维度不变相加的优势。
2025-12-29 19:07:43
1263
原创 DeepDream:窥视神经网络内部世界的梦幻之窗
在人工智能的发展历程中,2015年是一个重要的转折点。当大多数研究者还在专注于如何让神经网络更好地图像时,Google Research团队却反其道而行之,提出了一项突破性的技术——。这项技术不仅让我们能够"窥视"神经网络的内部世界,更开创了AI生成艺术的先河。这个看似简单的问题,却引领了一场神经网络可视化和AI艺术创作的革命。
2025-12-26 21:37:43
1121
原创 StyleGAN系列:从可控生成到完美等变的进化之路
在ProGAN成功突破高分辨率图像生成的技术壁垒后,NVIDIA的研究团队并没有停下脚步,他们继续推出了StyleGAN系列模型,将生成对抗网络推向了新的高度。StyleGAN不仅解决了ProGAN的一些固有缺陷,更开创了的新范式。
2025-12-25 19:44:23
1302
原创 渐进式GAN (ProGAN):高分辨率图像生成的革命
(Progressive Growing of GANs)由Tero Karras等人于2017年提出,是首个能够稳定生成的生成对抗网络。在它之前,生成高分辨率图像如同攀登珠峰,既危险又困难;在它之后,高分辨率图像生成成为标准配置。
2025-12-24 22:20:30
984
1
原创 生成对抗网络(GAN):从博弈到创造的艺术
特性自编码器(AE)变分自编码器(VAE)生成对抗网络(GAN)核心思想压缩重建概率生成对抗博弈训练目标最小化重建误差最大化ELBO极小极大博弈生成方式解码器重建从先验分布采样解码从噪声生成图像质量模糊,细节丢失较模糊,多样性有限清晰,逼真训练稳定性非常稳定稳定不稳定潜在空间无结构结构化(高斯)无显式结构可解释性中等高低评估难度容易(重建误差)中等(ELBO)困难(无明确指标)主要应用降维,去噪数据生成,表示学习高质量生成,风格迁移。
2025-12-23 20:57:50
810
1
原创 PyTorch优化器完全指南
在深度学习中,。想象你在一座高山上寻找最低点(全局最小点),梯度告诉你下山的方向,而——是小心谨慎地一小步一小步走,还是大胆地跳跃前进?
2025-12-23 20:31:52
601
原创 自编码器与变分自编码器:【3】从确定性到概率性 - 变分自编码器的革命
人类能从几个像素识别一张脸,能从几个音符听出一段旋律,能从几个词语理解一段情感。这种从有限信息中理解整体的能力,正是表示学习的核心目标。自编码器(Autoencoder)和变分自编码器(Variational Autoencoder)就是在这种背景下诞生的两种重要模型。它们不仅是深度学习中的重要组成部分,更是通往和的关键桥梁。
2025-12-22 22:35:52
1313
原创 自编码器与变分自编码器:【2】自编码器的局限性
二、代码结果分析2.1 潜在空间分布图潜在空间的无序性:从图中可见,10类服装数据的潜在表示散布在横轴-15到10、纵轴-10到10的广阔范围内,远超红色虚线框标识的标准正态分布范围(±3σ)。问题显现:启示:潜在空间缺乏先验约束,难以从已知分布中采样生成有效样本。重建能力评估:图中对比了原始服装图像与自编码器重建结果,展示出自编码器的核心能力。观察要点:结论:自编码器学会了关键特征的压缩表示,但受限于信息瓶颈,无法完美重建细节。生成能力测试:从不同范围的潜在空间随机采样,测试自编码器的生成能力。结果
2025-12-22 22:32:34
691
原创 解密GPT的生成魔法:自回归模型 (附:手搓最简单的GPT Demo)
当你和AI聊天时,它回答的每句话,其实都是一个字一个字“猜”出来的。它只做一件事:根据已经说出的所有字,猜出下一个最可能的字。你问:“今天天气?”AI心里在猜:看到“今天天气” → 猜下一个是 “很”。看到“今天天气很” → 猜下一个是 “好”。看到“今天天气很好” → 猜下一个是 “。”于是回答诞生了:“今天天气很好。”这个“每次只猜下一个字”的简单规则,就是自回归模型。它支撑着所有智能对话AI的回答。自回归模型的核心思想可以用一个优雅的公式表达:P(x1,x2,...,xT)=∏t=1TP(xt∣x1
2025-12-15 22:24:31
1252
1
原创 nn.Embedding:从离散符号到连续表示
映射功能:将离散的整数索引(如词汇ID)转换为连续的向量表示表示学习:通过训练学习每个符号的分布式表示维度转换:从一维的索引空间到高维的连续向量空间。
2025-12-11 21:39:22
1053
论文翻译:A Perceptually-Motivated Approach for Low-Complexity, Real-Time Enhancement of Fullband Speech
2025-04-02
AEC论文解读 - MULTI-TASK DEEP RESIDUAL ECHO SUPPRESSION WITH ECHO-AWARE LOSS
2024-12-09
AEC论文解读 - MULTI-SCALE TEMPORAL FREQUENCY CONVOLUTIONAL NETWORK WITH AXIAL ATTENTION FOR SPEECH ENHA
2024-12-09
AEC论文解读 - A Deep Hierarchical Fusion Network for Fullband Acoustic Echo Cancellation
2024-12-09
AEC论文解读 - RESIDUAL ACOUSTIC ECHO SUPPRESSION BASED ON EFFICIENT MULTI-TASK CONVOLUTIONAL NEURAL NET
2024-12-06
AEC论文解读 - ACOUSTIC ECHO CANCELLATION WITH THE DUAL-SIGNAL TRANSFORMATION LSTM NETWORK
2024-12-04
AEC论文解读 - Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios
2024-12-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅