自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(145)
  • 资源 (10)
  • 收藏
  • 关注

原创 CLIP:连接图像与文本的 AI 核心工具

想象一下,你教孩子认识了“马”、“老虎”和“熊猫”,然后给他看一张“斑马”的图片,他从未见过斑马。但你告诉他:“斑马看起来像马,身上有像老虎一样的条纹,颜色像熊猫是黑白的。”他很可能就能认出斑马。零样本学习(Zero-Shot Learning, ZSL)正是让机器拥有这种“举一反三”的能力。让模型识别在训练阶段从未见过的类别。传统监督学习:模型只能识别训练时见过的类别。训练集有猫、狗、汽车,模型就只会区分这三类。零样本学习。

2026-01-20 19:04:12 548

原创 Vision Transformer (ViT):当Transformer遇见图像,CV的范式革命

Vision Transformer不仅仅是一个新的图像分类模型,它更代表了一种思维范式的转变——用统一的Transformer架构来处理不同模态的数据。它模糊了NLP与CV之间的界限,推动了基础模型和多模态AI的研究热潮。虽然CNN因其高效和成熟,在诸多场景中仍不可替代,但ViT及其家族无疑为我们指明了一个充满潜力的方向:一个更加通用、统一、能够融会贯通地理解世界的AI架构。未来,也许我们不再需要为“视觉任务”和“语言任务”设计截然不同的模型大脑,而只需一个更强大的、基于注意力的统一心智。

2026-01-13 21:26:23 596

原创 深入浅出解析自然语言处理的核心——分词器

想象一下,你要教一个刚来地球的外星人学中文。你直接扔给他一整本《红楼梦》,他肯定会崩溃。更合理的方法是,先教他认识单个的汉字、词语,再理解句子。对于计算机而言,我们就是那个“外星人”。它只认识数字(0和1)。分词器的核心任务,就是完成例如:句子。

2026-01-13 21:19:37 734

原创 马尔可夫链蒙特卡洛(MCMC)——用随机探索破解复杂概率分布

MCMC方法之美在于它将两个看似简单的概念——蒙特卡洛随机抽样和马尔可夫链——结合成一个强大的工具,解决了贝叶斯推断中的核心计算难题。正如我们的探险家通过随机游走最终能找到宝藏分布一样,MCMC让我们能够在高维、复杂的概率空间中进行有效探索。从Metropolis-Hastings的接受-拒绝机制到Gibbs采样的条件更新策略,这些算法为我们提供了在不同场景下应对挑战的工具。虽然MCMC不是万能的,但它无疑是现代统计学和机器学习中不可或缺的工具。

2026-01-07 19:06:47 825

原创 变分推断:用简单分布逼近复杂世界的艺术

从追求精确解转向寻求实用近似。在现实世界的复杂问题中,完美往往是好的敌人。通过接受近似,我们获得了可扩展性、速度和实用性。就像绘制城市地图:我们可能永远无法知道每一条小巷的精确位置,但一张"足够好"的地图已经能让我们高效导航。变分推断就是为我们绘制这种"足够好"的概率地图的工具。它教会我们,在面对不确定性时,有时大胆近似比谨慎精确更有价值。在这个数据爆炸的时代,这种思想比以往任何时候都更加重要。“所有模型都是错的,但有些是有用的。变分推断正是这一思想的完美体现:我们明知道近似分布qzq(z)q。

2026-01-07 19:02:27 630

原创 EM算法详解:解密“鸡生蛋“的机器学习困局

假设我们有一些数据点,它们来自KKK每个数据点来自哪个分布每个分布的参数(均值μk\mu_kμk​,方差σk2\sigma_k^2σk2​每个分布的混合权重πk\pi_kπk​这就是聚类问题的典型场景:数据点天然形成几个簇,我们想找出这些簇的特征,并把每个点分配到合适的簇中。当信息不完整时,我们可以先做出合理的假设(E步),然后基于这些假设优化模型(M步),再用优化后的模型改进假设,如此循环。

2026-01-07 18:57:50 609

原创 随机变量及其分布:深入理解概率模型的基础

随机变量及其分布构成了概率论与统计学的核心框架,为我们描述和分析不确定性提供了统一的数学语言。从简单的伯努利试验到复杂的联合分布,从离散计数到连续测量,这一理论体系不断发展完善,成为现代数据科学和机器学习的基石。

2026-01-06 18:54:20 957

原创 高斯分布的 加权和vs加权混合

这两个概念虽然都基于高斯分布,但代表着两种完全不同的数学操作和思维方式。简单来说,。

2026-01-06 18:11:43 778

原创 论文解读:Denoising Diffusion Probabilistic Models(DDPM,去噪扩散概率模型)

在深度学习领域,生成模型一直被视为皇冠上的明珠。从早期的变分自编码器(VAE)和生成对抗网络(GAN),到强大的自回归模型(如PixelCNN),研究者们一直在探索如何让机器学会“创造”。2020年,Google Research的Jonathan Ho等人在论文《Denoising Diffusion Probabilistic Models》中提出了一种新的生成模型——去噪扩散概率模型,它不仅能够生成高质量图像,更在理论上建立了与去噪得分匹配、朗之万动力学等多种方法的深刻联系。DDPM的核心思想既直观又

2026-01-04 17:35:23 926

原创 # PyTorch 中 `nn.ModuleList` 详解

是 PyTorch 中一个重要的,用于存储和管理多个nn.Module对象。与普通的 Python 列表不同,专门为神经网络模块设计,提供了关键的功能。

2025-12-29 19:18:39 374

原创 Transformer位置编码的数学奥秘:从高维正交性到多尺度设计

核心观点:位置编码与输入嵌入相加是一种高效的、数学上优雅的信息融合方式,其合理性源于高维空间中向量的近似正交性。考虑输入嵌入E∈Rn×dE∈Rn×d和位置编码P∈Rn×dP∈Rn×d,其中nnn是序列长度,ddd是嵌入维度。拼接方式E;P∈Rn×2d[E;E;P∈Rn×2d,维度加倍相加方式EP∈Rn×dEP∈Rn×d,维度不变相加的优势。

2025-12-29 19:07:43 1162

原创 DeepDream:窥视神经网络内部世界的梦幻之窗

在人工智能的发展历程中,2015年是一个重要的转折点。当大多数研究者还在专注于如何让神经网络更好地图像时,Google Research团队却反其道而行之,提出了一项突破性的技术——。这项技术不仅让我们能够"窥视"神经网络的内部世界,更开创了AI生成艺术的先河。这个看似简单的问题,却引领了一场神经网络可视化和AI艺术创作的革命。

2025-12-26 21:37:43 991

原创 StyleGAN系列:从可控生成到完美等变的进化之路

在ProGAN成功突破高分辨率图像生成的技术壁垒后,NVIDIA的研究团队并没有停下脚步,他们继续推出了StyleGAN系列模型,将生成对抗网络推向了新的高度。StyleGAN不仅解决了ProGAN的一些固有缺陷,更开创了的新范式。

2025-12-25 19:44:23 1189

原创 渐进式GAN (ProGAN):高分辨率图像生成的革命

(Progressive Growing of GANs)由Tero Karras等人于2017年提出,是首个能够稳定生成的生成对抗网络。在它之前,生成高分辨率图像如同攀登珠峰,既危险又困难;在它之后,高分辨率图像生成成为标准配置。

2025-12-24 22:20:30 847 1

原创 生成对抗网络(GAN):从博弈到创造的艺术

特性自编码器(AE)变分自编码器(VAE)生成对抗网络(GAN)核心思想压缩重建概率生成对抗博弈训练目标最小化重建误差最大化ELBO极小极大博弈生成方式解码器重建从先验分布采样解码从噪声生成图像质量模糊,细节丢失较模糊,多样性有限清晰,逼真训练稳定性非常稳定稳定不稳定潜在空间无结构结构化(高斯)无显式结构可解释性中等高低评估难度容易(重建误差)中等(ELBO)困难(无明确指标)主要应用降维,去噪数据生成,表示学习高质量生成,风格迁移。

2025-12-23 20:57:50 783 1

原创 PyTorch优化器完全指南

在深度学习中,。想象你在一座高山上寻找最低点(全局最小点),梯度告诉你下山的方向,而——是小心谨慎地一小步一小步走,还是大胆地跳跃前进?

2025-12-23 20:31:52 553

原创 自编码器与变分自编码器:【3】从确定性到概率性 - 变分自编码器的革命

人类能从几个像素识别一张脸,能从几个音符听出一段旋律,能从几个词语理解一段情感。这种从有限信息中理解整体的能力,正是表示学习的核心目标。自编码器(Autoencoder)和变分自编码器(Variational Autoencoder)就是在这种背景下诞生的两种重要模型。它们不仅是深度学习中的重要组成部分,更是通往和的关键桥梁。

2025-12-22 22:35:52 1264

原创 自编码器与变分自编码器:【2】自编码器的局限性

二、代码结果分析2.1 潜在空间分布图潜在空间的无序性:从图中可见,10类服装数据的潜在表示散布在横轴-15到10、纵轴-10到10的广阔范围内,远超红色虚线框标识的标准正态分布范围(±3σ)。问题显现:启示:潜在空间缺乏先验约束,难以从已知分布中采样生成有效样本。重建能力评估:图中对比了原始服装图像与自编码器重建结果,展示出自编码器的核心能力。观察要点:结论:自编码器学会了关键特征的压缩表示,但受限于信息瓶颈,无法完美重建细节。生成能力测试:从不同范围的潜在空间随机采样,测试自编码器的生成能力。结果

2025-12-22 22:32:34 646

原创 自编码器与变分自编码器:【1】自编码器 - 数据压缩的艺术

是笔画的方向、曲线的弧度、结构的比例,而不是具体的像素位置。

2025-12-22 22:32:20 942

原创 解密GPT的生成魔法:自回归模型 (附:手搓最简单的GPT Demo)

当你和AI聊天时,它回答的每句话,其实都是一个字一个字“猜”出来的。它只做一件事:根据已经说出的所有字,猜出下一个最可能的字。你问:“今天天气?”AI心里在猜:看到“今天天气” → 猜下一个是 “很”。看到“今天天气很” → 猜下一个是 “好”。看到“今天天气很好” → 猜下一个是 “。”于是回答诞生了:“今天天气很好。”这个“每次只猜下一个字”的简单规则,就是自回归模型。它支撑着所有智能对话AI的回答。自回归模型的核心思想可以用一个优雅的公式表达:P(x1,x2,...,xT)=∏t=1TP(xt∣x1

2025-12-15 22:24:31 1112 1

原创 nn.Embedding:从离散符号到连续表示

映射功能:将离散的整数索引(如词汇ID)转换为连续的向量表示表示学习:通过训练学习每个符号的分布式表示维度转换:从一维的索引空间到高维的连续向量空间。

2025-12-11 21:39:22 996

原创 交叉熵与KL散度

交叉熵(Cross-Entropy)源于信息论,是衡量两个概率分布之间差异的指标。在机器学习中,我们用它来衡量模型预测的概率分布与真实的标签分布之间的差异。任务类型预测值形状目标值形状说明标准分类(N, C)(N,)最常见情况序列标注(N, C, L)(N, L)L为序列长度图像分割(N, H, W)像素级分类3D分割体积数据分类关键规则:目标值总是比预测值少一个维度,少的是类别维度(C)。

2025-12-09 21:24:22 984

原创 从 One-Hot 到 GPT:语言模型的演进之路

在人工智能的众多分支中,自然语言处理(NLP)一直是最具挑战性的领域之一。要让机器理解、生成人类语言,核心在于解决两个基本问题:核心思想:马尔可夫假设,一个词的出现只依赖于前面n−1n-1n−1个词。数学模型:P(w1w2…wm)≈∏P(wi)P(w_1 w_2 \ldots w_m) \approx \prod P(w_i)P(w1​w2​…wm​)≈∏P(wi​)P(w1w2…wm)≈P(w1)∏P(wi∣wi−1)P(w_1 w_2 \ldots w_m) \approx P(w_1) \pro

2025-12-09 20:54:31 843 1

原创 从 One-Hot 到 GPT:文本表示的演进之路

在人工智能的众多分支中,自然语言处理(NLP)一直是最具挑战性的领域之一。

2025-12-08 21:37:08 783 1

原创 论文解读 -- MusicFM:A FOUNDATION MODEL FOR MUSIC INFORMATICS

本文研究了专为音乐信息学量身定制的基础模型,该领域目前面临标注数据稀缺和泛化问题的挑战。为此,我们对各种基础模型变体进行了深入的比较研究,考察了关键决定因素,如模型架构、标记化方法、时间分辨率、数据和模型可扩展性。本研究旨在通过阐明这些个体因素如何促进基础模型在音乐信息学中的成功,来弥合现有的知识空白。采用谨慎的评估框架,我们评估了这些模型在音乐信息检索中各种下游任务上的性能,特别关注标记级和序列级分类。我们的结果表明,我们的模型展现出强大的性能,在特定关键指标上超越了现有模型。

2025-10-13 19:28:07 1150

原创 论文解读 -- MERT: ACOUSTIC MUSIC UNDERSTANDING MODEL WITH LARGE-SCALE SELF-SUPERVISED TRAINING

自监督学习(SSL)最近在视觉、文本和语音领域的大规模数据训练可泛化模型方面 emerged 作为一个有前途的范式。尽管SSL在语音和音频上已被证明有效,但其在音乐音频中的应用尚未被彻底探索。这部分是由于建模音乐知识,特别是音乐的调性和音高特性,所带来的独特挑战。为了解决这一研究空白,我们提出了一个声学音乐理解模型 with large-scale self-supervised Training(MERT),它 incorporated 教师模型来在掩码语言建模(MLM)风格的声学预训练中提供伪标签。

2025-10-13 18:05:03 647

原创 论文解读 -- MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization

近年来,基于自监督学习(SSL)预训练的基础模型在各种音乐信息学理解任务中取得了成功,包括音乐标签分类、乐器分类、调性检测等。本文提出了一种用于音乐理解的自监督音乐表示学习模型。与先前采用随机投影或现有神经编解码器的研究不同,该模型名为 MuQ,通过预测由梅尔残差向量量化(Mel-RVQ)生成的标记进行训练。我们的 Mel-RVQ 利用残差线性投影结构对梅尔频谱进行量化,以增强目标提取的稳定性和效率,并带来更好的性能。

2025-10-13 15:39:17 631

原创 音频特征提取算法介绍

线性频率fff到梅尔频率fmf_mfm​fm2595⋅log⁡101f700fm​2595⋅log10​1700f​特性低频段:梅尔刻度变化缓慢,分辨率高高频段:梅尔刻度变化迅速,分辨率低符合人耳对音高的感知特性。

2025-10-13 12:08:20 1158

原创 深度学习基本模块:MultiheadAttention 多头注意力机制

多头注意力机制(MultiheadAttention)是Transformer的核心组件,通过并行计算多个注意力头,使模型能同时捕捉输入序列中不同表示子空间的信息。该机制将输入特征分割到多个子空间独立计算注意力,再合并结果,显著增强了序列建模能力。其可学习参数包括投影权重和偏置项,支持灵活配置嵌入维度和注意力头数。输入输出采用(batch, seq, feature)格式,可应用于自注意力、交叉注意力等场景。PyTorch实现中,MultiheadAttention层不限定输入来源,可根据任务需求设计查询、

2025-10-11 12:55:33 1002

原创 Embedding(嵌入):让机器理解世界的通用语言

是一种将转换为的技术。简单来说,它就像为每个概念(如单词、用户、产品)创建一个独特的"数字身份证",这个身份证不仅代表身份,还包含了该概念的特征和关系信息。

2025-10-10 10:43:54 488

原创 CTC损失:序列学习的关键技术

CTC(Connectionist Temporal Classification,连接时序分类)损失是一种专门为序列学习任务设计的损失函数,由Alex Graves等人在2006年提出。它主要解决了以下核心问题:传统方法需要精确的帧级对齐标注,而CTC损失通过巧妙的算法设计,只需要输入序列和对应的输出序列即可进行训练,无需对齐信息。

2025-10-09 20:04:24 744

原创 深度学习:Inception 架构

AlexNet的成功证明了深度网络的优势,随后出现的ZFNet、VGG等模型不断加深网络层数,扩大滤波器数量。正是在这样的背景下,Google Research团队提出了(代号GoogLeNet),在2014年ImageNet挑战赛中以top-5错误率6.67%的优异成绩夺冠,同时参数量仅有AlexNet的1/12,实现了。

2025-10-09 12:17:30 1037

原创 深度学习:池化(Pooling)

池化(Pooling)是深度学习中的一种重要操作,主要用于降低特征图的空间维度(高度和宽度),同时保留最重要的特征信息。池化操作通过减少参数数量和计算量来防止过拟合,并提高模型的平移不变性。与卷积层不同,池化层没有可学习的参数,只有超参数如核大小、步长和填充。池化操作通常应用于卷积神经网络(CNN)中,跟在卷积层之后,用于逐步减少空间分辨率,同时增加通道深度。常见的池化类型包括最大池化(Max Pooling) 和平均池化(Average Pooling)。池化层的结构相对简单,主要由以下几个组件构成:最

2025-09-29 19:59:36 2393 7

原创 论文解读:Attention Is All You Need

目前主流的序列转导模型(sequence transduction models)都基于复杂的循环神经网络(RNN)或卷积神经网络(CNN),这些模型通常包含一个编码器和一个解码器。表现最好的模型还通过注意力机制将编码器和解码器连接起来。我们提出了一种全新的、简单的网络架构——

2025-09-26 12:04:06 1138

原创 深度学习:注意力机制(Attention Mechanism)

深入理解注意力机制:从人类认知到深度学习注意力机制(Attention Mechanism)是深度学习中一种模仿人类视觉和认知系统工作方式的技术。就像人类在观察复杂场景时会聚焦于重要部分而忽略次要信息一样,注意力机制让神经网络能够有选择地关注输入数据中最相关的部分。1.1 人类注意力类比想象你在阅读一篇文章时:• 你不会同时关注所有单词• 你会聚焦于关键词和重要句子• 根据上下文动态调整关注点• 忽略不相关的细节这正是注意力机制在神经网络中实现的功能!2.1 基本概念。

2025-09-25 18:38:41 1559

原创 ICASSP 2026 ASAE Challenge Baseline模型解读

MuQ模型:音乐质量评估的特征提取引擎,负责将原始音频转换为高质量的特征表示,为后续的质量评估提供关键输入。MuQ模型位于整个评估流程的最前端,它的。Generator模型是整个音乐质量评估系统的核心处理模块,它接收MuQ提取的特征表示,经过多层处理后输出多维度的音乐质量评分。Task1 需要预测Overall Musicality,Task2需要同时预测上面 5 个指标。,这些特征将作为Generator模型的输入,直接影响最终的质量评估结果。

2025-09-25 18:28:55 1078

原创 ICASSP 2026 ASAE Challenge训练数据集--SongEval(面向歌曲美学评估的基准数据集)

美学在歌曲生成任务中是一项隐含却至关重要的评估标准,它反映了人类对音乐的感知,超越了客观指标。然而,由于音乐欣赏具有高度主观性,评估生成歌曲的美学质量仍是一项基础性挑战。现有的评估指标(如基于嵌入的相似度)难以反映定义音乐吸引力的主观感知特征。为此,我们提出了,这是首个开源、大规模、用于评估的基准数据集。SongEval 包含,总时长超过,由进行美学评分。。数据集涵盖,跨越。此外,为验证歌曲美学评估的有效性,我们基于 SongEval 进行了美学分数预测实验,结果表明其性能显著优于现有的客观评估指标。

2025-09-22 17:00:35 1546

原创 ICASSP 2026 -- Automatic Song Aesthetics Evaluation Challenge(自动歌曲美学评估挑战赛)

ICASSP 2026 自动歌曲美学评估挑战赛旨在促进开发能够预测人类对完整生成歌曲的审美评分的模型。我们专注于生成符合人类对音乐性、情感深度和声音表现力感知的歌曲。参赛者的任务是开发基于音频输入预测主观评分的模型。目标:创建可以预测人类对歌曲美学品质的评价的模型,包括整体音乐性、情感投入和声音表现力等方面。赛道设置赛道 1:整体音乐性得分预测参与者必须为每首歌曲预测一个整体美学得分,代表歌曲艺术品质的整体音乐印象。赛道 2:细粒度美学维度预测参与者预测每首歌曲的五个特定美学维度。

2025-09-22 16:53:29 1711

原创 深度学习:DenseNet 稠密连接​ -- 缓解梯度消失

xlHlx0x1xl−1xl​Hl​([x0​x1​...xl−1​])xlx_lxl​表示第lll层的输出x0x1xl−1x0​x1​...xl−1​表示将前面所有层的输出在通道维度上进行拼接HlH_lHl​表示第lll层的非线性变换(通常包括BNReLU和Conv。

2025-09-19 18:10:28 868

原创 深度学习基本模块:GRU 门控循环单元

输入层:序列数据,形状为的张量(与RNN、LSTM相同)GRU层核心组件隐藏状态hth_tht​,作为当前时间步的输出,并传递到下一个时间步门控机制:控制信息的流动,包括:重置门:决定如何将过去信息与当前输入结合更新门:决定保留多少旧信息,添加多少新信息可学习参数权重矩阵WzW_zWz​WrW_rWr​WWW(更新门、重置门和候选隐藏状态各有一个权重矩阵),形状均为偏置项bzb_zbz​brb_rbr​bbb,形状均为可学习参数(PyTorch实现)

2025-09-19 11:54:13 1392

SongEval: 面向歌曲美学评估的基准数据集

SongEval: 面向歌曲美学评估的基准数据集

2025-09-22

论文翻译:A Perceptually-Motivated Approach for Low-Complexity, Real-Time Enhancement of Fullband Speech

论文翻译:A Perceptually-Motivated Approach for Low-Complexity, Real-Time Enhancement of Fullband Speech

2025-04-02

通过交叉相关性在大估计误差存在的情况下进行时间延迟估计

通过交叉相关性在大估计误差存在的情况下进行时间延迟估计

2024-12-10

AEC论文解读 - MULTI-TASK DEEP RESIDUAL ECHO SUPPRESSION WITH ECHO-AWARE LOSS

AEC论文解读 - MULTI-TASK DEEP RESIDUAL ECHO SUPPRESSION WITH ECHO-AWARE LOSS

2024-12-09

AEC论文解读 - MULTI-SCALE TEMPORAL FREQUENCY CONVOLUTIONAL NETWORK WITH AXIAL ATTENTION FOR SPEECH ENHA

AEC论文解读 - MULTI-SCALE TEMPORAL FREQUENCY CONVOLUTIONAL NETWORK WITH AXIAL ATTENTION FOR SPEECH ENHA

2024-12-09

AEC论文解读 - A Deep Hierarchical Fusion Network for Fullband Acoustic Echo Cancellation

AEC论文解读 - A Deep Hierarchical Fusion Network for Fullband Acoustic Echo Cancellation

2024-12-09

AEC论文解读 - RESIDUAL ACOUSTIC ECHO SUPPRESSION BASED ON EFFICIENT MULTI-TASK CONVOLUTIONAL NEURAL NET

AEC论文解读 - RESIDUAL ACOUSTIC ECHO SUPPRESSION BASED ON EFFICIENT MULTI-TASK CONVOLUTIONAL NEURAL NET

2024-12-06

AEC论文解读 - ACOUSTIC ECHO CANCELLATION WITH THE DUAL-SIGNAL TRANSFORMATION LSTM NETWORK

AEC论文解读 - ACOUSTIC ECHO CANCELLATION WITH THE DUAL-SIGNAL TRANSFORMATION LSTM NETWORK

2024-12-04

AEC论文解读 - Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios

AEC论文解读 - Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios

2024-12-03

大模型语音对话时代的TTS评测实践

大模型语音对话时代的TTS评测实践

2024-11-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除