NLP
文章平均质量分 97
Nobody33
人工智能,并行计算学习者
展开
-
第N8周:图解NLP中的注意力机制
Seq2seq(Sequence to Sequence)模型是一种经典的编码器-解码器(Encoder-Decoder)架构,广泛用于处理序列到序列的映射问题,如机器翻译、对话系统等。在这种情况下,解码器在每个时间步的输入是目标序列中的下一个单词。注意力机制是一种模拟人类大脑注意力分配方式的计算模型,它能够在处理大量信息时,聚焦于重要的部分,而忽略不重要的信息。将其形状调整为三维张量,其中第一维是批次大小(这里为1,因为是单个输入),第二维是序列长度(也是1,因为是单个时间步),第三维是嵌入向量的维度。原创 2024-07-26 17:32:01 · 862 阅读 · 0 评论 -
第N7周:seq2seq翻译实战-pytorch复现-小白版
在序列生成的任务中,如机器翻译或文本生成,解码器(decoder)的输入通常是由解码器自己生成的预测结果,即前一个时间步的输出。GRU是一种RNN(循环神经网络)的变体,它将传统的RNN的三个门(输入门、遗忘门和输出门)合并为两个门(更新门和重置门)。GRU是一种RNN(循环神经网络)的变体,它将传统的RNN的三个门(输入门、遗忘门和输出门)合并为两个门(更新门和重置门)。GRU是一种RNN(循环神经网络)的变体,它将传统的RNN的三个门(输入门、遗忘门和输出门)合并为两个门(更新门和重置门)。原创 2024-07-11 22:24:33 · 1191 阅读 · 0 评论 -
第N6周:使用Word2vec实现文本分类
这里其他的东西都耳熟能详了,其中梯度裁剪可以领出来讲一讲。在深度学习中,梯度裁剪是一种常见的技术,用于防止梯度爆炸,这是神经网络训练过程中可能出现的问题之一。当梯度变得非常大时,它们可能会导致权重更新变得不稳定,甚至可能导致模型训练失败。是 PyTorch 中的一个函数,用于限制梯度的范数(大小)在训练过程中。: 返回模型中所有可学习的参数(权重和偏置)的列表。这些参数将在训练过程中通过反向传播计算梯度。0.1: 这是梯度裁剪的上限,也称为裁剪阈值。原创 2024-07-01 16:51:24 · 1122 阅读 · 0 评论 -
第N5周:调用Gensim库训练Word2Vec模型
Word2Vec是一种计算模型,它将词汇表中的每个词映射到一个固定大小的向量。这种技术是自然语言处理(NLP)领域的一个重要突破,由Google在2013年左右推出。Word2Vec模型能够捕捉词汇表中词之间的语义和语法关系,这些关系被编码在词向量(word embeddings)中。连续词袋(CBOW)和Skip-Gram。CBOW:适用于大规模数据集和频繁词的向量表示,训练速度较快。Skip-Gram:适用于处理稀有词和复杂的语言模式,训练速度较慢。原创 2024-06-26 19:02:58 · 1376 阅读 · 0 评论 -
第N4周:中文文本分类
model.train() # 切换为训练模式# grad属性归零loss = criterion(predicted_label, label) # 计算网络输出和真实值之间的差距,label为真实值# 反向传播torch.nn.utils.clip_grad_norm(model.parameters(), 0.1) # 梯度裁剪optimizer.step() # 每一步自动更新# 记录acc与lossmodel.eval() # 切换为测试模式。原创 2024-06-19 19:19:18 · 1142 阅读 · 0 评论 -
第N3周:pytorch文本分类入门
文本偏移量(offsets)在处理文本数据时是用来记录每个样本的文本在批量数据中的起始位置。这种做法通常用于处理序列数据,如文本数据,当文本长度不一致时。在文本分类任务中,每个样本可能包含不同数量的文本,这意味着在将文本数据传递给模型之前,需要对它们进行适当的重组。文本偏移量的作用是在批量数据中正确地对齐每个样本的文本。具体来说,偏移量是一个列表,其中每个元素代表批量数据中对应样本的文本开始位置。样本1: “here is”样本2: “an example”原创 2024-06-13 10:09:22 · 470 阅读 · 0 评论 -
第N2周:Embeddingbag和Embedding详解
在机器学习和深度学习中,嵌入层(embedding layer)是一种特殊的神经网络层,它的作用是将离散的输入数据(如单词、物品、用户ID等)映射到连续的向量表示。这种映射是通过一个可训练的权重矩阵实现的,该矩阵的行数等于输入数据的类别数(例如,词汇表中的单词数),列数等于嵌入向量的维度。在二维空间中,任何向量都可以通过平面上的一个点来表示,向量的大小(长度或范数)和方向由该点的位置决定。在这样的高维空间中,直接进行数据的可视化变得非常困难,甚至不可能,因为我们的直觉和视觉感知是在三维空间中形成的。原创 2024-05-27 21:00:49 · 1071 阅读 · 0 评论 -
第N1周:one-hot独热编码
独热编码(One-Hot Encoding)是一种将分类数据转换为二进制向量的方法,其中每个类别对应一个唯一的二进制向量。在独热编码中,每个类别都由一个长度为n的向量表示,其中n是所有可能类别的数量。向量中的每个位置对应一个可能的类别,该位置上的值是1或0,表示该实例是否属于该类别。这段代码的目的是将给定的文本数据集转换为独热编码(One-Hot Encoding)。(注意斜杠的方向,如果安装了代码自动补全的会自动把斜杠补对,这个还挺好的)库是一个流行的中文分词工具,它使用了一种基于前缀词典的分词算法。原创 2024-05-22 19:42:43 · 1100 阅读 · 0 评论