没有色彩的天吾-CSDN博客

原创 g-love-Glove

GloveCBOW,Skip-Gram新型模型的提出，通过词嵌入的方式一定程度解决了词汇相似的问题。不过这些新模型并没利用co−occurrenceco-occurrenceco−occurrence对于全局的统计数据。Glove的目的是既利用好co−occurrenceco-occurrenceco−occurrence计数的全局统计数据，又将其与CBOW，Skip-Gram的机制联系起来...

2019-03-27 16:50:31 474

原创 Word2Vec

word2vecCBOW&Skip-Gram两个模型的机制非常相似。CBOW是给通过一系列背景词，预测中心词。Skip-Gram是通过一中心词，生成各背景词汇。每个词对应了两个向量：其作为中心词的中心向量vcv_cvc；其作为背景词的背景向量ucu_cuc而vc,ucv_c,u_cvc,uc的生成借助于两个Matrix->V∈Rn×∣V∣,U∈R∣V∣×nV \...

2019-03-26 15:38:52 815

原创 BatchNormalization 关于正则化、梯度弥散..

Batch normalization要知道，数据分布太多元化并不利于DNN的训练。BN的提出就是为了狙击这个问题。出于whitening的代价太大了，BN采用了mini-batch进行normalization的方案。用一个N×C×H×WN\times C \times H \times WN×C×H×W的数据举栗：在大小为M（M<N）M（M<N）M（M&l...

2019-03-21 22:21:17 427 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人