深度学习相关知识点

dropout什么时候用
dropout就是一个P用在所有neural上?
原理是怎样?

知识蒸馏?

CNN 第一层25个 filter,输出25个feature map
那第二层是40个filter的话,是说每个filter都是high=25的 cube,做卷积的时候立方体的做,每个filter得到一个feature map?那就是25个结果加在一起吗?

RNN-BPTT 是怎么随时间做的??

梯度消失和梯度爆炸怎么处理?

cnn里面用maxpooling 只取一个最大的数值,如何保证所有梯度反向传播;

bert每次mask一个词,这时候这个mask的input是通用的一个每次都更新的embedding?

bert做 阅读理解找答案的时候,li的视频教案没看懂,向量做dot product,得到一个数,文档中n 个词得到n个数,softmax得到n个概率。。。

中文bert输入是字还是词??

在这里插入图片描述
transformer加速的方法最近有进展吗?

知识蒸馏机器翻译

zero-shot learning

GAN如何训练参数?

BERT MASK 的 TOKEN 都用同一个EMBEDING吗?

在这里插入图片描述bert s-e两个向量就是固定的embeding?不是和句子+问题有关的?

gensim

逻辑回归为啥能分类?

BERT和适用于中文的RBIN?百度研发的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值