Deep Learning
RNN
Standard RNN
LSTM
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
Attention
Attention is a weighted sum mechanism (for nodes).
https://blog.csdn.net/hahajinbu/article/details/81940355
Self-attention
Multi-head Attention
CNN
Text-CNN
Bayesian CNN
https://arxiv.org/abs/1506.02158
贝叶斯网络不是采用BP来做的。而是对网络parameters有个prior distribution,通过x和y得到posterior distribution。
Residual Network
Transformer
BERT
Bidirectional Encoder Representations from Transformers
Embedding
CBOW vs skip-gram
- CBOW是多对一预测,skip-gram是一对多预测。
cbow中,是用周围词预测中心词,利用中心词的预测情况,使用GradientDescent方法,不断调整周围词的词向量。当训练完成之后,每个词都会作为中心词,把周围词的词向量做调整,这样获得整个文本里所有词的词向量。
cbow的对周围词的调整是统一的:求出的gradient的值会同样的作用到每个周围词的词向量当中去。
而skip-gram是用中心词来预测周围的词。在skip-gram中,会利用周围的词的预测结果情况,使用GradientDescent来不断的调整中心词的词向量,最终所有的文本遍历完毕之后,也就得到了文本所有词的词向量。
因此skip-gram训练时间要长,但是更准确;cbow没有对生僻词做专门的训练。
https://www.cnblogs.com/pinard/p/7160330.html
hierarchical model
先把词表组织成一个huffman tree。每个节点都是一个sigmoid的二元逻辑回归。提高模型训练的效率,但是若中心词是个生僻词,就要走很久。
https://www.cnblogs.com/pinard/p/7243513.html
negative-sampling
对cbow或skipgram的一个样本做neg个负采样(中心词随机取),然后和正例一起有个似然函数,通过GradientDescent极大化似然函数,中间的词向量即为所求。
https://www.cnblogs.com/pinard/p/7249903.html