NLP
dmcdust
这个作者很懒,什么都没留下…
展开
-
transformer 原理及源码
左边encoder ,右边是decoder 图中是4维 ,论文中是512,x 乘 WQ,WK,WV(随机初始化)得到 q ,k,v。 为何要乘 WQ,WK,WV 而不直接使用qkv 首先增加参数可以增加学习能力,如果没经过 WQ,WK,WV,则qkv一般就固定的值,后面q 乘 k的时候,两个相似度大的向量会得到很大的值 ...原创 2020-07-14 23:16:56 · 764 阅读 · 0 评论 -
词向量
Wordvec 我在写博客 objective function 最大似然,联合概率 L(θ) = J(θ) = Skip-gram模型 输入一个词,预测周围词 CBOW模型原创 2020-07-14 15:52:17 · 162 阅读 · 0 评论