1、bert中mask任务,具体过程是怎么样的?
因为是mask任务,那么我们输入输出的hidden其实是一样的,
对于我们的输入是[batch_size,seq_len,embedding_dim],
那么对应的输出也是[batch_size,seq_len,embedding_dim]。
同时刚开始随机初始化W矩阵,W=[embedding_dim, vocab_size],
Xhidden*Wvocab = [batch_size,seq_len,vocab_size]。进行参数的更新,最后一个维度再经过一个softmax,得到我们预测的mask。
2、bert的一个假设是什么?
这个假设是一个语言学上的假设,和word2Vec一样,假设任何一个词的语义可以由上下文的语义表示。(类似于一个人可以由他周围的环境表示出来一样。)