深度学习
没有色彩的天吾
这个作者很懒,什么都没留下…
展开
-
BatchNormalization 关于正则化、梯度弥散..
Batch normalization 要知道,数据分布太多元化并不利于DNN的训练。 BN的提出就是为了狙击这个问题。 出于whitening的代价太大了,BN采用了mini-batch进行normalization的方案。 用一个N×C×H×WN\times C \times H \times WN×C×H×W的数据举栗: 在大小为M(M<N)M(M<N)M(M&l...原创 2019-03-21 22:21:17 · 392 阅读 · 1 评论 -
Word2Vec
word2vec CBOW&Skip-Gram 两个模型的机制非常相似。 CBOW是给通过一系列背景词,预测中心词。 Skip-Gram是通过一中心词,生成各背景词汇。 每个词对应了两个向量: 其作为中心词的中心向量vcv_cvc;其作为背景词的背景向量ucu_cuc 而vc,ucv_c,u_cvc,uc的生成借助于两个Matrix->V∈Rn×∣V∣,U∈R∣V∣×nV \...原创 2019-03-26 15:38:52 · 800 阅读 · 0 评论