词向量技术的演化方向:
Word2vec (2013)——> Glove(2014)(LSA全局共现词+word2vec优点)——> ELMo(2018) ——> BERT(2018)
发展趋势:词向量表到预训练词嵌入模型的
将文本信息中的词语转化为词向量的形式是NLP领域中最基本的上游任务。
1 Word2vec 2013 skip-gram模型的基本工作原理
随机地选目标词Target和上下文词Context构成词对,构造一个有监督问题学习出一个词向量模型,最终得到词向量表。
模型的分类部分采用softmax=单个词/所有词的总和,而所有词汇量特别的巨大,普通的softmax方法不切实际。
引入分级softmax的思想,共有两种
1)哈夫曼树:构造一个树,高频词放在上层容易检索的位置(哈夫曼树),减少检索次数。
2)负采样:减少softmax公式分母的计算量,不是计算所有词而是采样部分词。
具体操作:在构成Target和Context的基础上,在加一个标签表示词对是不是上下文关系,这样采集k个不是上下文关系的负样本和一个是上下文关系的正样本,每次只迭代这k+1个词,不用迭代所有词了。这就相当于将一个10000分类转换为10000个二分类问题。
2 Glove 2014
融合了当时两种词向量方法:LSA全局词共现矩阵分解和word2vec上下文局部窗口,提出了一种很好的捕捉全局信息的方法,取