算法题记录一
1、RNN中发生梯度消失的原因是什么?2、RNN中使用Relu可以解决梯度消失的问题吗?3、LSTM为什么可以解决梯度消失/爆炸的问题?4、GRU和LSTM的区别?5、LSTM算法有哪些不足之处?6、写出Attention的公式Attention机制,里面的q,k,v分别代表什么?7、Transformer中使用多头注意力的好处是什么?8、Attention中self-attention的时间复杂度9、Transformer中encoder和decoder的异同点?10、 Bert和GPT
复制链接