
NLP
文章平均质量分 87
梦实学习室
渐入佳境
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
人工智能学习:Transformer结构中的规范化层(层归一化)
本文介绍了Transformer结构中的层归一化(Layer Normalization)技术。层归一化通过对每个样本内部特征进行标准化处理,稳定神经网络训练过程,解决了梯度消失或爆炸问题。其核心步骤包括计算特征均值和方差、标准化处理以及引入可学习的缩放平移参数。相比批归一化,层归一化不依赖批次大小,更适用于RNN、Transformer等序列模型。文章还提供了Python实现代码,展示了如何通过LayerNorm类对神经网络输出进行规范化处理。层归一化能有效加速模型收敛,提高训练稳定性和泛化能力,已成为现原创 2025-09-10 16:17:55 · 703 阅读 · 0 评论 -
人工智能学习:Transformer结构中的前馈全连接层
Transformer模型中的前馈全连接层(FFN)是其核心组件之一,位于多头注意力机制之后。该层由两个线性变换层和ReLU/GELU激活函数组成,通过升维(d_model→d_ff)再降维(d_ff→d_model)的操作增强模型表达能力。FFN独立处理每个位置的输入特征,实现非线性变换而不改变序列长度。代码实现展示了PositionwiseFeedForward类的结构,包含两个线性层和dropout层,输入输出保持[batch_size, seq_len, d_model]维度。该层通过非线性激活和维原创 2025-09-10 16:15:22 · 538 阅读 · 0 评论 -
人工智能学习:Transformer结构中的多头注意力机制(Multi-Head Attention)
多头注意力机制是Transformer模型的核心组件,通过并行计算多个注意力头从不同子空间提取信息,增强模型表达能力。其核心在于每个头独立学习输入数据的不同方面,拼接后形成更丰富的表示。该机制能捕捉多种关系、提高模型表现力并支持并行计算,提升效率。实现时需确保特征维度可被头数整除,使用克隆函数创建多个线性层,通过视图和转置操作处理数据形状,最终输出整合后的注意力表示。实验证明多头设计能有效均衡注意力偏差,提升模型效果。代码实现中需注意数据形状变换和注意力权重计算,输出包含注意力结果和权重分布。原创 2025-09-09 20:41:03 · 827 阅读 · 0 评论 -
人工智能学习:Transformer结构中的自注意力机制 (Self-Attention)
本文介绍了Transformer中的自注意力机制(Self-Attention)实现方法。自注意力通过计算查询、键和值之间的点积关系,捕捉序列中的长距离依赖。文章详细展示了注意力计算的Python实现代码,包括缩放点积、掩码处理和softmax归一化等关键步骤。实验结果表明,不使用掩码时注意力权重呈对角分布,而使用掩码后权重被平均分配。该机制相比RNN具有并行计算优势,能更高效地处理序列数据。原创 2025-09-09 20:38:08 · 367 阅读 · 0 评论 -
人工智能学习:Transformer结构(编码器及其掩码张量)
本文介绍了Transformer模型中的编码器结构和掩码张量。编码器由N个堆叠层组成,每层包含多头自注意力和前馈网络两个子层,均采用残差连接和层归一化。掩码张量是控制模型处理输入数据的工具,主要分为填充掩码(处理变长序列)和前向掩码(防止未来信息泄露)。在Transformer中,编码器使用填充掩码忽略无效位置,解码器则组合使用两种掩码保证自回归特性。文章还提供了生成下三角掩码的代码实现,并通过可视化展示了掩码效果。掩码机制确保了模型在训练和推理时的正确信息处理顺序。原创 2025-09-08 22:18:32 · 997 阅读 · 0 评论 -
人工智能学习:Transformer结构(文本嵌入及其位置编码器)
本文介绍了Transformer模型中的文本嵌入层和位置编码器。文本嵌入层将词汇转换为高维向量表示,通过可学习的嵌入层实现,并乘以√d_model进行缩放。位置编码器使用正弦/余弦函数生成位置特征,与词嵌入相加以保留序列位置信息。两者结合后,既能捕捉词汇语义关系,又能保持位置特征。文中详细展示了PyTorch实现代码,包括Embeddings和PositionalEncoding类的具体实现,并通过可视化展示了位置编码的周期性特征。最终形成具有位置信息的词向量表示,为后续Transformer处理提供输入。原创 2025-09-08 22:13:10 · 858 阅读 · 0 评论 -
人工智能学习:Transformer架构
摘要:Transformer是一种基于seq2seq架构的深度学习模型,在NLP领域广泛应用于机器翻译、文本生成等任务。其核心优势包括:1)通过自注意力机制有效捕捉长距离依赖;2)支持并行计算提升效率;3)具有灵活的架构扩展性。模型主要由编码器和解码器组成,编码器使用多头自注意力机制处理输入序列,解码器结合掩码注意力和编码器-解码器注意力逐步生成输出。关键组件包括嵌入层、位置编码、残差连接和层归一化等,这种模块化设计使Transformer能适应多种模态数据的处理需求。原创 2025-09-07 10:28:27 · 986 阅读 · 0 评论 -
人工智能学习:什么是Transformer模型
摘要:Google于2017年提出基于自注意力机制的Transformer模型,彻底革新了NLP领域。相比传统RNN/LSTM,Transformer支持并行计算和长距离依赖捕捉,显著提升效率。2018年BERT等衍生模型持续突破,使Transformer成为NLP领域的核心技术,广泛应用于机器翻译等任务。其核心的自注意力机制能动态分析序列关系,奠定了现代语言模型的基础。原创 2025-09-07 10:22:59 · 1505 阅读 · 0 评论 -
人工智能学习:基于seq2seq模型架构实现翻译
本文介绍了一个基于GRU和注意力机制的seq2seq模型,用于英法翻译任务。使用63594个英法平行句对作为数据集,通过文本清洗和字典构建预处理数据。模型包含编码器(EncoderRNN)和解码器(AttnDecoderRNN)两部分,采用注意力机制增强翻译效果。在训练过程中引入teacher forcing技术加速收敛,并分析了损失曲线以评估模型性能。实验结果显示模型能较好完成短句翻译任务,并通过注意力热图可视化展示了源语言与目标语言词间对应关系。文章详细阐述了数据预处理、模型构建、训练策略和评估方法,为原创 2025-09-06 21:42:54 · 1084 阅读 · 0 评论 -
人工智能学习:什么是seq2seq模型
Seq2Seq模型是一种用于序列转换的深度学习模型,由编码器、解码器和中间语义向量组成。编码器将输入序列压缩为固定长度的上下文向量,解码器基于该向量逐步生成输出序列。该模型广泛应用于机器翻译、文本摘要等领域,但存在信息瓶颈和长序列处理困难等局限性。核心流程包括编码阶段的信息压缩和解码阶段的序列生成,通常使用RNN、LSTM或Transformer实现。原创 2025-09-06 21:32:05 · 571 阅读 · 0 评论 -
人工智能学习:什么是注意力机制
本文系统介绍了注意力机制的起源、分类及应用。注意力机制源于解决Seq2Seq模型在机器翻译中的信息瓶颈问题,通过动态分配权重使模型聚焦关键信息。主要分为三类:软注意力(全局加权)、硬注意力(局部选择)和自注意力(内部交互)。核心计算过程包括查询-键值匹配、权重归一化和加权求和三个步骤。在深度学习中,注意力机制通过编码器-解码器架构实现,编码端采用自注意力提取特征,解码端动态关注编码输出。文章详细阐述了点积注意力和加性注意力的实现差异,并提供了PyTorch代码示例。该机制显著提升了模型对长距离依赖的捕捉能力原创 2025-09-05 10:21:47 · 1013 阅读 · 0 评论 -
人工智能学习:什么是GRU模型
GRU(门控循环单元)是一种改进的RNN结构,通过引入更新门和重置门机制,有效解决了传统RNN的梯度消失问题。其核心通过两个门控单元控制信息流动,结构比LSTM更简单但性能相近。Bi-GRU结合正向和反向处理增强上下文捕捉能力,但计算复杂度更高。PyTorch中通过nn.GRU类实现,参数包括输入维度、隐藏层维度和层数等。GRU优势在于计算效率高、能捕捉长程依赖,但仍有梯度消失风险和不可并行计算的局限,是RNN系列模型发展的关键瓶颈。原创 2025-09-05 10:21:22 · 837 阅读 · 0 评论 -
人工智能学习:什么是LSTM模型
LSTM(长短期记忆网络)是一种改进的RNN,通过门控机制(输入门、遗忘门、输出门)和细胞状态解决传统RNN的梯度消失和长程依赖问题。其核心结构包括:遗忘门决定丢弃信息,输入门更新细胞状态,输出门控制隐藏状态输出。Bi-LSTM结合正向和反向LSTM,能捕捉序列的上下文信息,但计算复杂度较高。PyTorch中通过nn.LSTM实现LSTM模型。LSTM优点包括能处理长期依赖和灵活控制信息流,缺点是计算开销大。相比传统RNN,LSTM在长序列任务中表现更优,但训练效率较低。原创 2025-09-04 14:00:42 · 1146 阅读 · 0 评论 -
人工智能学习:传统RNN模型
本文介绍了传统RNN模型的适用场景、内部结构、PyTorch实现及其优缺点。传统RNN适用于短序列任务和计算资源有限的场景,其内部结构通过拼接输入和前一时刻隐藏状态,经全连接层和tanh激活函数输出当前状态。PyTorch中通过nn.RNN类实现,文章详细说明了参数设置和输入输出表示形式。传统RNN结构简单、计算效率高,但存在梯度消失/爆炸问题,难以捕捉长期依赖关系。这些局限性使其在长序列任务中表现不佳,需要更复杂的LSTM或GRU等变体来解决。原创 2025-09-04 14:00:21 · 820 阅读 · 0 评论 -
人工智能学习:什么是RNN模型
摘要: RNN(循环神经网络)是处理序列数据的神经网络,通过循环连接捕捉时间依赖关系,广泛应用于NLP、语音识别等领域。其核心是隐藏状态,按时间步更新并输出结果。RNN分为四种结构:NvsN(等长输入输出,如词性标注)、Nvs1(序列输入单输出,如情感分析)、1vsN(单输入序列输出,如文本生成)、NvsM(不等长序列,如机器翻译)。内部构造包括传统RNN、LSTM、GRU等变体,其中seq2seq(NvsM)结构应用最广。RNN通过序列关系处理连续性数据,适用于文本分类、翻译等任务。原创 2025-09-03 16:20:33 · 1063 阅读 · 0 评论 -
人工智能学习:NLP的词性对照表
本文对比了jieba和HanLP中文分词工具的词性标注体系。jieba采用字母编码(如a表形容词、n表名词、v表动词),细分了形容词/名词/动词的子类(如nr表人名、vn表名动词)。HanLP则使用英文缩写(如NR表专有名词、VV表动词),并包含更多语言学分类(如DT限定词、OD次序词等)。两者都覆盖了基本词类,但HanLP的分类更细致,包含标点符号、外来词等特殊类别,且标注方式更接近英文词性标注惯例。原创 2025-09-03 16:20:08 · 108 阅读 · 0 评论 -
人工智能学习:文本张量表示
本文介绍了自然语言处理中的文本张量表示方法,主要包括one-hot编码、Word2Vec和词嵌入(WordEmbedding)三种技术。one-hot编码简单直观但存在高维稀疏问题;Word2Vec通过CBOW和Skip-gram两种模式训练词向量,能有效捕捉词语语义关系;词嵌入则是更广泛的概念,包括各种将词汇映射到低维空间的方法。文章详细阐述了各方法的原理、实现过程及优缺点,并提供了Python代码示例和可视化分析方法,为理解文本向量化技术提供了系统性的指导。原创 2025-09-02 11:37:48 · 685 阅读 · 0 评论 -
人工智能学习:NLP的文本特征处理
本文介绍了自然语言处理中两种重要的文本特征处理方法。n-gram特征通过组合相邻词语捕捉局部上下文信息,常用的bi-gram和tri-gram可有效表达词语关系。文本长度规范则通过截断或填充将文本统一为固定长度,满足深度学习模型的输入要求。这两种方法能增强模型性能,n-gram简单高效地提取语言特征,而长度规范则保证数据一致性和计算效率。文中还提供了Python代码示例,展示了n-gram特征提取和文本长度规范的具体实现方法。原创 2025-09-02 11:37:19 · 1034 阅读 · 0 评论 -
人工智能学习:NLP文本处理的基本方法
本文介绍了中文自然语言处理中的三个基础任务:分词、命名实体识别(NER)和词性标注。分词是将连续字符序列切分成有意义的词序列的过程,文中重点介绍了Jieba分词工具的三种模式(精确、全模式和搜索引擎模式)及自定义词典功能。命名实体识别用于从文本中识别人名、地名等特定实体。词性标注则为每个词分配语法类别(如名词、动词)。文章通过具体代码示例展示了如何使用Jieba和HanLP等工具实现这些功能,并阐述了它们在文本预处理、信息抽取等NLP任务中的重要作用。这些基础技术为后续高级NLP任务提供了必要支持。原创 2025-09-01 11:46:50 · 807 阅读 · 0 评论 -
人工智能学习:什么是NLP自然语言处理
自然语言处理(Natural Language Processing, 简称NLP)是计算机科学与语言学中关注于计算机与人类语言间转换的领域,主要目标是让机器能够理解和生成自然语言,这样人们可以通过语言与计算机进行更自然的互动。对于自然语言来说,处理的数据主要就是人类的语言,例如:汉语、英语、法语等,该类型的数据不像我们前面接触过的结构化数据、或者图像数据可以很方便的进行数值化。语音识别:将语音信号转化为文本文本分析:从文本中提取有意义的信息,包括情感分析、主题提取等机器翻译。原创 2025-09-01 09:59:16 · 829 阅读 · 0 评论