Bert 的第一步是文字向量化。文字向量化从 Word2Vec 开始,逐渐走向成熟。
Word2vec
参考资料
『Distributed Representations of Sentences and Documents』 贡献:在前人基础上提出更精简的语言模型(language model)框架并用于生成词向量,这个框架就是 Word2vec 『Efficient estimation of word representations in vector space』 贡献:专门讲训练 Word2vec 中的两个trick:hierarchical softmax 和 negative sampling 优点:Word2vec 开山之作,两篇论文均值得一读 Xin Rong 的论文:『word2vec Parameter Learning Explained』: !重点推荐!
Hierarchical softmax
参数优化目标函数为:
[Y. Goldberg, etc.] 或 [X. Rong]
其中 表示输入词序列的第1个词, 表示词序列下标, 表示词 的语境(上下文 context)。
Hierachical softmax 借鉴了 Haffman encoding 的思想,压缩了待训练参数数量,