1、词袋模型、N-gram模型、TF-IDF、word2vec词向量、NNLM
自然语言处理NLP中的N-gram模型_songbinxu的博客-CSDN博客_n-gram
https://segmentfault.com/a/1190000023439928
word embedding、NNLM
word2vec:神经语言模型(NNLM), CBOW, skip-gram_哔哩哔哩_bilibili
word2vec CBOW、skit-gram, hierachical softmax、negtive sample
word2vec原理(二) 基于Hierarchical Softmax的模型 - 刘建平Pinard - 博客园
Hierarchical Softmax(层次Softmax) - 知乎
位置编码:
设计原则:
- 它能为每个时间步输出一个独一无二的编码;
- 不同长度的句子之间,任何两个时间步之间的距离应该保持一致;
- 模型应该能毫不费力地泛化到更长的句子。它的值应该是有界的; 可以用来表示模型在训练过程中从来没有看到过的句子长度。
- 它必须是确定性的。