深度学习结构相关

RNN

Standard RNN

LSTM

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

Attention

Attention is a weighted sum mechanism (for nodes).
https://blog.csdn.net/hahajinbu/article/details/81940355

Self-attention
Multi-head Attention

CNN

Text-CNN

Bayesian CNN

https://arxiv.org/abs/1506.02158
贝叶斯网络不是采用BP来做的。而是对网络parameters有个prior distribution,通过x和y得到posterior distribution。

Residual Network

Transformer

BERT

Bidirectional Encoder Representations from Transformers

Embedding

CBOW vs skip-gram

  • CBOW是多对一预测,skip-gram是一对多预测。
    cbow中,是用周围词预测中心词,利用中心词的预测情况,使用GradientDescent方法,不断调整周围词的词向量。当训练完成之后,每个词都会作为中心词,把周围词的词向量做调整,这样获得整个文本里所有词的词向量。
    cbow的对周围词的调整是统一的:求出的gradient的值会同样的作用到每个周围词的词向量当中去。
    而skip-gram是用中心词来预测周围的词。在skip-gram中,会利用周围的词的预测结果情况,使用GradientDescent来不断的调整中心词的词向量,最终所有的文本遍历完毕之后,也就得到了文本所有词的词向量。
    因此skip-gram训练时间要长,但是更准确;cbow没有对生僻词做专门的训练。
    https://www.cnblogs.com/pinard/p/7160330.html

hierarchical model

先把词表组织成一个huffman tree。每个节点都是一个sigmoid的二元逻辑回归。提高模型训练的效率,但是若中心词是个生僻词,就要走很久。
https://www.cnblogs.com/pinard/p/7243513.html

negative-sampling

对cbow或skipgram的一个样本做neg个负采样(中心词随机取),然后和正例一起有个似然函数,通过GradientDescent极大化似然函数,中间的词向量即为所求。
https://www.cnblogs.com/pinard/p/7249903.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值