![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 79
AXiao96
Stay hungry. Stay foolish.
展开
-
Pytorch 自动求梯度(autograd)
深度学习其实就是一个最优化问题,找到最小的loss值,因为自变量过多,想要找到最小值非常困难。所以就出现了很多最优化方法,梯度下降就是一个非常典型的例子。本文针对python的pytorch库中的自动求梯度进行了详细的解释Tensorpytorch里面的tensor可以用来存储向量或者标量。torch.tensor(1) # 标量torch.tensor([1]) # 1*1 的向量tensor还可以指定数据类型,以及数据存储的位置(可以存在显存里,硬件加速)torch.te...转载 2021-03-29 13:12:42 · 901 阅读 · 0 评论 -
BART原理简介与代码实战
写在前面最近huggingface的transformer库,增加了BART模型,Bart是该库中最早的Seq2Seq模型之一,在文本生成任务,例如摘要抽取方面达到了SOTA的结果。本次放出了三组不同的预训练权重:bart-large:基础预训练模型; bart-large-cnn:基础模型在 CNN/Daily Mail Abstractive Summarization Task微调后的模型; bart-large-mnli:基础模型在MNLI classification task微调后转载 2020-10-13 18:10:16 · 9244 阅读 · 0 评论 -
Seq2Seq原理及实现
https://zhuanlan.zhihu.com/p/57155059一、Seq2Seq模型简介目前Seq2Seq模型在机器翻译,语音识别,文本摘要,问答系统等领域取得了巨大的成功。如图1所示,Seq2Seq其实就是Encoder-Decoder结构的网络,它的输入是一个序列,输出也是一个序列。在Encoder中,将序列转换成一个固定长度的向量,然后通过Decoder将该向量转换成我们想要的序列输出出来。图1 Encoder-Decoder结构如图2所示,Encoder和Decode转载 2020-10-13 18:08:54 · 1270 阅读 · 0 评论 -
torch.Tensor的乘法汇总
torch.Tensor的4种乘法torch.Tensor有4种常见的乘法:*, torch.mul, torch.mm, torch.matmul. 本文抛砖引玉,简单叙述一下这4种乘法的区别,具体使用还是要参照官方文档。点乘a与b做*乘法,原则是如果a与b的size不同,则以某种方式将a或b进行复制,使得复制后的a和b的size相同,然后再将a和b做element-wise的乘法。下面以*标量和*一维向量为例展示上述过程。* 标量Tensor与标量k做*乘法的结果是Tensor的转载 2020-10-06 17:07:17 · 1628 阅读 · 0 评论 -
详解Transformer (Attention Is All You Need)
前言注意力(Attention)机制[2]由Bengio团队与2014年提出并在近年广泛的应用在深度学习中的各个领域,例如在计算机视觉方向用于捕捉图像上的感受野,或者NLP中用于定位关键token或者特征。谷歌团队近期提出的用于生成词向量的BERT[3]算法在NLP的11项任务中取得了效果的大幅提升,堪称2018年深度学习领域最振奋人心的消息。而BERT算法的最重要的部分便是本文中提出的Transformer的概念。正如论文的题目所说的,Transformer中抛弃了传统的CNN和RNN,整个网络结转载 2020-09-18 16:08:57 · 228 阅读 · 0 评论 -
完全图解RNN、RNN变体、Seq2Seq、Attention机制
本文主要是利用图片的形式,详细地介绍了经典的RNN、RNN几个重要变体,以及Seq2Seq模型、Attention机制。希望这篇文章能够提供一个全新的视角,帮助初学者更好地入门。一、从单层网络谈起在学习RNN之前,首先要了解一下最基本的单层网络,它的结构如图:输入是x,经过变换Wx+b和激活函数f得到输出y。相信大家对这个已经非常熟悉了。二、经典的RNN结构(N vs N)在实际应用中,我们还会遇到很多序列形的数据:如:自然语言处理问题。x1可以看做是第一个单..转载 2020-09-18 16:04:35 · 134 阅读 · 0 评论 -
真正的完全图解Seq2Seq Attention模型
转自:https://mp.weixin.qq.com/s/0k71fKKv2SRLv9M6BjDo4w五分钟看懂seq2seq attention模型。本文通过图片,详细地画出了seq2seq+attention模型的全部流程,帮助小伙伴们无痛理解机器翻译等任务的重要模型。seq2seq 是一个Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的向量变成可变长度的.转载 2020-09-18 15:58:34 · 304 阅读 · 0 评论