超细节的BERT/Transformer知识点
超细节的BERT/Transformer知识点海晨威海晨威Growth is a song1,219 人赞同了该文章随着NLP的不断发展,对BERT/Transformer相关知识的研(mian)究(shi)应(ti)用(wen),也越来越细节,下面尝试用QA的形式深入不浅出BERT/Transformer的细节知识点。1、不考虑多头的原因,self-attention中词向量不乘QKV参数矩阵,会有什么问题?2、为什么BERT选择mask掉15%这个比例的词,可以是其他的比例吗?3、使用B
复制链接