nlp
湮尘XJ
这个作者很懒,什么都没留下…
展开
-
交叉熵损失函数
https://www.jianshu.com/p/23623fe17f64转载 2021-01-28 16:19:11 · 111 阅读 · 0 评论 -
pytorch深度学习实践-RNN高级篇
视频源《PyTorch深度学习实践》13.循环神经网络(高级篇)课件下载 提取码 cxe4practiceName Classfication根据名字的拼写进行名字所属国家的分类传统自然语言处理,字/词one-hot编码->嵌入低维度(embedding)->RNN Cell->Linear(统一维度) ->output而回到当前问题,由于名字分类并不需要最后一层的输出,故问题可以简化为(机器只需要从头到尾看一遍名字即可)由于RNN容易造成梯度消失/梯度爆炸等问原创 2021-01-24 14:37:44 · 337 阅读 · 0 评论 -
Transformer--Add&Normalize
归一化transformer在进行self-Attention之后会进行一个layerNormalization 【将数据统一到固定区间内】其中又分为batchNormalization和layerNormalizationbatchNormalization 即按照batch维度化成均值为0标准差为1的数据Layer则是纵向将每次的向量数据进行归一化残差作用:加入未学习的原向量使得到的结果的效果至少不弱于原来的结果...原创 2021-01-02 17:19:04 · 2369 阅读 · 1 评论 -
Transformer--Multi-headed机制
在Transformer中一组q,k,v可以得到一种当前词在句中的表达,那么多组就能得到多种表达,从而得到更为精确的词表达原创 2021-01-02 16:32:18 · 470 阅读 · 0 评论 -
Transform
Transform顺序序列数据常用RNN进行训练,但是RNN又难以平行化,故催生出Attention机制的Transform如图通过Self-Attention Layer可以平行化处理得到bi其中bi包含了整个序列的按权压缩的信息该概念最早出现在google的一篇paper中【Attention is all you need】首先我们将输入乘上一个matrix得到我们想要唯独的ai之后分别乘以wq,wk,wv得到qi,ki,vi其中qi可以看作询问,而ki则是被询问者详细可见如下图 d是原创 2021-01-02 14:52:58 · 175 阅读 · 0 评论