NLP方向
文章平均质量分 90
NLP的常用模型
Deepmindyu
十年磨一剑
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
当自回归模型遇上扩散模型:下一代序列预测模型详解与Pytorch实现
今天我们来详细讲解一下用于序列预测的自回归扩散模型 (Autoregressive Diffusion Models)。这个模型结合了两种强大思想:自回归 (Autoregressive, AR) 和 扩散模型 (Diffusion Models, DM),旨在生成高质量、连贯的序列数据。原创 2025-08-27 14:17:34 · 1995 阅读 · 0 评论 -
当经典统计学遇上深度学习:为什么说PPCA和FA是深度学习的必修课?
总结来说, 概率 PCA 和因子分析是理解更高级的深度生成模型的关键垫脚石。PPCA 通过引入各向同性的高斯噪声,为经典 PCA 提供了概率解释,而 FA 则通过一个更灵活的对角噪声模型,允许对数据进行更精细的建模。它们共同的核心思想——通过线性高斯模型连接观测数据和潜在变量——被深度学习模型(如 VAE)继承并发展,通过引入非线性神经网络,极大地扩展了其对复杂数据分布的建模能力。原创 2025-08-26 15:24:19 · 928 阅读 · 0 评论 -
“听音辨人”的数学:ICA(独立变量分析)原理全解析与题目巩固
独立分量分析是一种强大的线性因子模型,它通过在只知道混合信号的情况下,利用源信号的统计独立性和非高斯性,来估计出一个解混矩阵,从而恢复出原始的、独立的源信号。它是解决“盲源分离”问题的利器,与PCA的目标有本质区别,在信号处理、生物医学和数据分析等领域有着深远的影响。原创 2025-08-27 16:17:45 · 762 阅读 · 0 评论 -
现代AI大模型核心技术:BERT-从浅入深,小白也能看懂,附实例演示!
在它之前,AI在阅读文本。 在它之后,AI在理解世界。BERT是AI史上的一个里程碑。它首次让机器能够双向、深度地理解语境,改变了自然语言处理领域的格局。它就像AI世界的罗塞塔石碑,被解锁后,便释放出无穷潜力,成为了今天几乎所有高级语言智能应用(从GPT到各类智能助手)的基石和灵感之源。认识BERT,就是认识现代AI的起点。原创 2025-08-06 16:14:12 · 1133 阅读 · 0 评论 -
Transformer新手级讲解,超简单详细!!!
输入处理"I", "love", "AI" 这三个词分别被转换成词向量。给每个词向量加上它们对应的位置编码,让模型知道它们的顺序。编码器工作 (Encoder)混合了位置信息的词向量进入编码器层。在编码器内部,数据流经多头自注意力层(理解句子内部关系)。然后流经一个前馈神经网络(Feed-Forward Network,可以理解为对信息进行进一步加工和提炼)。这个过程会重复 N 次(比如6次),每一层都会让模型对原文的理解更加深刻。原创 2025-07-22 20:30:38 · 1028 阅读 · 0 评论 -
Transformer模型Decoder原理精讲及其PyTorch逐行实现
最后输出概率最高的词,比如“我”,被选为第一个生成的词。: 每个词的向量都吸收了来自整个句子的上下文信息,变成了一个新的、更丰富的向量。编码器的唯一目标是:接收一个完整的输入序列(例如,一个英文句子),然后为这个序列生成一个包含丰富上下文信息的、高质量的向量表示(我们称之为。这个包含了位置信息的向量矩阵,现在要进入由 N 层(比如6层)完全相同的编码器层(Encoder Layer)组成的堆栈。它是一个静态的、只读的“知识库”,为接下来解码器的生成工作做好了万全的准备。它的任务是在给定源序列的编码表示 (原创 2025-07-23 21:01:50 · 1506 阅读 · 0 评论 -
循环神经网络RNN原理精讲,详细举例!
在了解RNN是什么之前,我们先要明白它解决了什么问题。传统的神经网络,比如我们常见的前馈神经网络(Feedforward Neural Network)或者卷积神经网络(CNN),它们有一个共同的特点:输入之间是相互独立的。你给它一张猫的图片,它判断是猫。再给它一张狗的图片,它判断是狗。这两个判断过程互不影响。前一次的输入和输出,对后一次的判断没有任何帮助。这在很多场景下是没问题的。"今天天气很好,我心情也很___。" 空格里很可能填“好”或“不错”。这个推断依赖于前面的“天气很好”。原创 2025-07-31 20:03:07 · 1181 阅读 · 0 评论 -
Transformer Masked loss原理精讲及其PyTorch逐行实现
定义交叉熵损失函数# 关键:告诉损失函数,所有标签值为 PADDING_IDX 的位置都被忽略这个参数就是实现 Masked Loss 的方法。当我们把(这里是0) 传给它,在内部计算时,会自动跳过所有目标标签是0的位置。第三步:调整张量形状和,其中N是样本总数,C是类别数。而我们现在的logits和target都是二维的批次数据,需要调整一下。# CrossEntropyLoss 需要的输入形状是 (N, C)# N 是总的需要计算的元素数量, C是类别数 (即词汇表大小)原创 2025-07-24 14:11:38 · 1527 阅读 · 0 评论 -
现代AI的架构之父:从浅入深讲解Transformer架构,非常详细,附带数据图!
摘要:Transformer通过自注意力机制解决了传统RNN序列处理的低效和长距离依赖问题。其核心架构包含编码器和解码器:编码器将输入序列转换为富含上下文信息的向量,解码器基于编码输出和已生成内容预测下一个词。关键组件包括:1)位置编码保留词序信息;2)多头自注意力同时捕捉不同维度的词间关系;3)残差连接和层归一化稳定训练;4)掩码机制防止解码器窥探未来信息。该架构实现了全局上下文理解与高效并行计算,成为自然语言处理的里程碑模型。原创 2025-07-22 19:25:47 · 1490 阅读 · 2 评论 -
Transformer的Encoder模型进阶原理讲解与从零开始Pytorch代码逐行实现
昨天更新了Transformer的模型的原理,今天我将对它的两个模块Encoder和Decoder分别展开进阶原理精讲与代码的逐行实现;我们先开始一堂 Encoder 的进阶课。这次我们会深入到设计的细节和数学原理,以及从0开始编写这个模块原创 2025-07-23 17:52:37 · 926 阅读 · 2 评论 -
LSTM网络从浅入深原理级讲解与Pytorch逐行讲解实现
我们将收集到的索引列表转换回中文字符串,并打印出来与真实标签进行对比。由于我们的数据集和模型都非常小,翻译结果可能不完美,希望大家可以从中学习到LSTM的核心思想。原创 2025-08-01 15:42:12 · 1507 阅读 · 0 评论 -
Transformer内部数据流动:从输入到输出的维度变换,超详细!!!
我们假设一个极简的翻译任务,并设定一套小巧的参数,方便观察。2123100。原创 2025-07-24 14:38:03 · 1179 阅读 · 0 评论
分享