dropout什么时候用
dropout就是一个P用在所有neural上?
原理是怎样?
知识蒸馏?
CNN 第一层25个 filter,输出25个feature map
那第二层是40个filter的话,是说每个filter都是high=25的 cube,做卷积的时候立方体的做,每个filter得到一个feature map?那就是25个结果加在一起吗?
RNN-BPTT 是怎么随时间做的??
梯度消失和梯度爆炸怎么处理?
cnn里面用maxpooling 只取一个最大的数值,如何保证所有梯度反向传播;
bert每次mask一个词,这时候这个mask的input是通用的一个每次都更新的embedding?
bert做 阅读理解找答案的时候,li的视频教案没看懂,向量做dot product,得到一个数,文档中n 个词得到n个数,softmax得到n个概率。。。
中文bert输入是字还是词??
transformer加速的方法最近有进展吗?
知识蒸馏机器翻译
zero-shot learning
GAN如何训练参数?
BERT MASK 的 TOKEN 都用同一个EMBEDING吗?
bert s-e两个向量就是固定的embeding?不是和句子+问题有关的?
gensim
逻辑回归为啥能分类?
BERT和适用于中文的RBIN?百度研发的