nlp
文章平均质量分 89
牛大了2023
jzc7的博客
展开
-
NLP实战9:Transformer实战-单词预测
cuda# 定义编码器层# 定义编码器,pytorch将Transformer编码器进行了打包,这里直接调用即可# 初始化权重"""Arguments:src : Tensor, 形状为 [seq_len, batch_size]src_mask: Tensor, 形状为 [seq_len, seq_len]Returns:输出的 Tensor, 形状为 [seq_len, batch_size, ntoken]"""# 生成位置编码的位置张量# 计算位置编码的除数项。原创 2023-08-01 10:50:54 · 2960 阅读 · 0 评论 -
NLP实战8:图解 Transformer笔记
🍨 本文为[🔗]内部限免文章(版权归 *K同学啊* 所有)🍖 作者:[Transformer整体结构图,与seq2seq模型类似,Transformer模型结构中的左半部分为编码器(encoder),右半部分为解码器(decoder),接下来拆解Transformer。原创 2023-07-23 14:35:00 · 557 阅读 · 0 评论 -
NLP实战7:seq2seq翻译实战-Pytorch复现
🍨 本文为[🔗]内部限免文章(版权归 *K同学啊* 所有)🍖 作者:[📌 本周任务:●请根据N5、N6周内容,为解码器添加上注意力机制。原创 2023-07-10 16:08:04 · 440 阅读 · 0 评论 -
NLP实战6:seq2seq翻译实战-Pytorch复现-小白版
🍨 本文为[🔗]内部限免文章(版权归 *K同学啊* 所有)🍖 作者:[📌 本周任务:●结合训练中N5周的内容理解本文代码数据集:eng-fra.txt。原创 2023-07-05 18:49:38 · 1108 阅读 · 0 评论 -
NLP学习:seq2seq详解
总结起来,这篇文章介绍了seq2seq模型的原理和应用。seq2seq模型是一种常见的NLP模型结构,用于处理序列到序列的任务,如机器翻译和文本摘要。它由编码器和解码器组成,其中编码器将输入序列转化为一个上下文向量,解码器根据上下文向量生成输出序列。基于RNN的seq2seq模型使用循环神经网络来处理输入序列和输出序列,其中每个时间步的输入和输出都通过RNN进行处理。然而,这种模型在处理长文本序列时存在困难,因为RNN很难捕捉到长距离的依赖关系。为了解决这个问题,引入了注意力机制。原创 2023-06-27 13:13:21 · 845 阅读 · 0 评论 -
NLP实战:使用Word2vec实现文本分类
model.train() # 切换为训练模式optimizer.zero_grad() # grad属性归零loss = criterion(predicted_label, label) # 计算网络输出和真实值之间的差距,label为真实值loss.backward() # 反向传播torch.nn.utils.clip_grad_norm_(model.parameters(), 0.1) # 梯度裁剪optimizer.step() # 每一步自动更新# 记录acc与loss。原创 2023-06-17 20:35:59 · 3056 阅读 · 3 评论 -
NLP实战:调用Gensim库训练Word2Vec模型
🍨 本文为[🔗]内部限免文章(版权归 *K同学啊* 所有)🍖 作者:[📌 本周任务:●阅读NLP基础知识里Word2vec详解一文,了解并学习Word2vec相关知识●学习本文内容,在下一篇文章中,将使用Word2vec辅助完成文本分类任务是一本电子书,txt格式。原创 2023-06-06 14:42:09 · 924 阅读 · 0 评论 -
NLP实战:中文文本分类-Pytorch实现
model.train() # 切换为训练模式optimizer.zero_grad() # grad属性归零loss = criterion(predicted_label, label) # 计算网络输出和真实值之间的差距,label为真实值loss.backward() # 反向传播torch.nn.utils.clip_grad_norm_(model.parameters(), 0.1) # 梯度裁剪optimizer.step() # 每一步自动更新# 记录acc与loss。原创 2023-05-31 09:45:14 · 3593 阅读 · 33 评论 -
NLP实战:基于Pytorch的文本分类入门实战
这里我们定义TextClassificationModel模型,首先对文本进行嵌入,然后对句子嵌入之后的结果进行均值聚合。self.embedding = nn.EmbeddingBag(vocab_size, # 词典大小embed_dim, # 嵌入的维度这段代码是在 PyTorch 框架下用于初始化神经网络的词嵌入层(embedding layer)权重的一种方法。这里使用了均匀分布的随机值来初始化权重,具体来说,其作用如下:1。原创 2023-05-04 13:03:33 · 2734 阅读 · 3 评论 -
NLP实战:快递单信息抽取-基于ERNIE1.0 预训练模型
推荐使用MapDataset()自定义数据集。每条数据包含一句文本和这个文本中每个汉字以及数字对应的label标签。之后,还需要对输入句子进行数据处理,如切词,映射词表id等。ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架,该框架将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的知识,实现模型效果不断进化。原创 2023-05-03 19:26:21 · 1827 阅读 · 1 评论 -
NLP原理和应用入门:paddle(梯度裁剪、ONNX协议、动态图转静态图、推理部署)
动态图(Dynamic Graph)和静态图(Static Graph)是深度学习框架中的两种模型建立方式。静态图是指在模型建立之前,先定义好整个计算图,然后再将数据输入计算图中进行计算。这种方式最早出现在 TensorFlow 中,用户需要先定义计算图的结构,然后再将数据输入计算图中进行计算,具有很好的性能和可扩展性。动态图是指在模型运行时才会生成计算图。例如,PyTorch 和 Chainer 就是使用动态图的深度学习框架。原创 2023-04-27 13:08:22 · 1320 阅读 · 0 评论 -
NLP基础:标注器Label Studio的入门使用
起好名,选择natural language processing,再选择named entity recognition。点击import导入文本文件,我随便现弄了一个。最后标完导出即可,可以json、csv等等。左边这个框可以编辑自己要标注的关键词。然后就会自动登录网页,一般是。导入后点击上面进行标注任务。配置完后在控制台输入。原创 2023-04-24 22:25:29 · 5562 阅读 · 3 评论