位置嵌入的含义
位置嵌入不仅仅是反应了时间序列信息,而且从直观上来看,将位置嵌入和其转置做点积,其结果如下。
即距离较近的字之间的相关性要大于距离较远字。所以其建立了时间维度上 的关联性。
语言模型的定义和BERT如何预训练语言模型
- 语言模型定义:什么是语言模型, 其实用一个公式就可以表示 𝑃(𝑐1,…,𝑐𝑚) , 假设我们有一句话, 𝑐1到𝑐𝑚 是这句话里的 𝑚 个字, 而语言模型就是求的是这句话出现的概率是多少.
- 预训练方式1:Masked LM
就是随机遮盖或替换一句话里面任意字或词, 然后让模型通过上下文的理解预测那一个被遮盖或替换的部分, 之后做 𝐿𝑜𝑠𝑠 的时候只计算被遮盖部分的 𝐿𝑜𝑠𝑠 。
- 预训练方式2:Next Sentence Prediction
给出属于上下文的两句话,计算这两句话相关的概率