![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
BERT
Madname
这个作者很懒,什么都没留下…
展开
-
一本读懂BERT(实践篇)
一、什么是BERT?首先我们先看官方的介绍:BERT is a method of pre-training language representations, meaning that we train a general-purpose “language understanding” model on a large text corpus (like Wikipedia), and ...转载 2020-01-02 11:02:07 · 1146 阅读 · 0 评论 -
一文读懂BERT(原理篇)
一文读懂BERT(原理篇)...转载 2019-12-31 10:32:34 · 1125 阅读 · 0 评论 -
Transformer补充及整体过程
上一节介绍了self-attention之后,有一个问题,对self-attention来说,Input sequence的顺序好像没有什么用,因为对每一个Input Vector都做了attention,对每一个时间点来说,当前词的邻居或者很远的词,对他的影响都是一样的。这不符合我们的期望顺序表达我们希望能把Input seq的顺序考虑进去原文中认为,Input aia^iai在经过em...原创 2019-12-13 17:17:51 · 402 阅读 · 0 评论 -
Self-attention计算方法
首先,Inputs为x1~x4,是一个sequence,每一个Input先通过一个Embedding,乘上一个Matrix得到(a1,a4),然后放入self-attention在self-attention当中,每一个Input都分别乘上3个不同的Matrix产生3个不同的Vector,分别命名为q,k,vq代表query,to match others,每一个Input都乘上一个Mat...原创 2019-12-12 18:24:22 · 4218 阅读 · 0 评论 -
Transformer的工作
要想学习BERT,需要先了解Transformer1、Transformer的工作2、传统网络结构的问题RNN网络不能做并行训练,X1会用上X0的隐层特征,X2会用上X1的隐层特征,所以不能独立计算(x0,x1,x2各自计算,算完合在一起),所以不能并行计算,所以层数不够多,计算速度也不快。Transformer注意力机制注意力机制简单点说就是"今天早上吃饭,上午上课,下午上课,晚...原创 2019-12-12 10:20:25 · 304 阅读 · 0 评论