深度学习结构相关

最新推荐文章于 2024-09-12 23:40:25 发布

OverTheMoon

最新推荐文章于 2024-09-12 23:40:25 发布

阅读量432

收藏

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_17377865/article/details/102819963

版权

Deep Learning

RNN

Standard RNN

LSTM

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

Attention

Attention is a weighted sum mechanism (for nodes).
https://blog.csdn.net/hahajinbu/article/details/81940355

Self-attention

Multi-head Attention

CNN

Text-CNN

Bayesian CNN

https://arxiv.org/abs/1506.02158
贝叶斯网络不是采用BP来做的。而是对网络parameters有个prior distribution，通过x和y得到posterior distribution。

Residual Network

Transformer

BERT

Bidirectional Encoder Representations from Transformers

Embedding

CBOW vs skip-gram

CBOW是多对一预测，skip-gram是一对多预测。
cbow中，是用周围词预测中心词，利用中心词的预测情况，使用GradientDescent方法，不断调整周围词的词向量。当训练完成之后，每个词都会作为中心词，把周围词的词向量做调整，这样获得整个文本里所有词的词向量。
cbow的对周围词的调整是统一的：求出的gradient的值会同样的作用到每个周围词的词向量当中去。
而skip-gram是用中心词来预测周围的词。在skip-gram中，会利用周围的词的预测结果情况，使用GradientDescent来不断的调整中心词的词向量，最终所有的文本遍历完毕之后，也就得到了文本所有词的词向量。
因此skip-gram训练时间要长，但是更准确；cbow没有对生僻词做专门的训练。
https://www.cnblogs.com/pinard/p/7160330.html

hierarchical model

先把词表组织成一个huffman tree。每个节点都是一个sigmoid的二元逻辑回归。提高模型训练的效率，但是若中心词是个生僻词，就要走很久。
https://www.cnblogs.com/pinard/p/7243513.html

negative-sampling

对cbow或skipgram的一个样本做neg个负采样（中心词随机取），然后和正例一起有个似然函数，通过GradientDescent极大化似然函数，中间的词向量即为所求。
https://www.cnblogs.com/pinard/p/7249903.html

OverTheMoon

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值