语言表征模型的概述:
将自然语言中的语言单元(如字、词、character、subword等)中的语义压缩到低维的、紧实的向量空间中。一般采用预训练的方法。得到语言表征模型后再用于其他下游任务。
例如:
word embeding模型:
BERT模型:
BERT:
Bidirection Encoder Representation from Transformer
论文链接:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
官方代码和预训练模型: https://github.com/google-research/bert
采用masked language model(MLM)方法
语言表征模型与语言模型的区别:
语言模型的用途是更具体的任务,即输出语言单元序列的概率,或者说不同的字、词能组合成一个句子的概率。
语言表征模型不针对具体的任务,仅仅是学习到语言单元的表达向量。这些表达向量要用在什么地方是由下游人物决定的。