bert & transformer
-
transformer或bert的实现方法
-
transformer的attention实现
-
bert的两个上游任务如何实现
- Masked LM:
- mask 15%
- 80% [MASK],10% random,10% unchange
- Next Sentence Prediction (NSP)
- [CLS] to predict
- 50% isNext,50% not
- Masked LM:
-
bert的下游任务,如何进行序列预测
-
bert可以如何优化
-
bert和transformer的区别
-
logsoftmax和softmax的区别
- log_softmax能够解决函数overflow和underflow,加快运算速度,提高数据稳定性。
- log_softmax能够解决函数overflow和underflow,加快运算速度,提高数据稳定性。
LSTM
-
dropout如何进行反向传播
梯度
r a n d o m M a s k ( x i ) = { 0 , r i < p 1 / ( 1 − p ) , r i ≥ p randomMask(x_i)=\left\{ \begin{aligned} 0,r_i<p \\ 1/(1-p) ,r_i\geq p \end{aligned} \right. randomMask(xi)={0,ri<p1/(1−p),ri≥p -
解释一下梯度消失现象
- ReLU来替代sigmod
- 使用长短期记忆网络
- 爆炸
- 使用梯度截断(Gradient Clipping)
- 残差结构
- 批量归一化
-
解释精确率,召回率,F1值
-
LSTM的内部结构
LSTM -
LSTM模型可以如何来改进
-
LSTM防止梯度消失
-
1.cell状态的加法更新策略使得梯度传递更恰当。
-
2.门控单元可以决定遗忘多少梯度,他们可以在不同的时刻取不同的值。这些值都是通过隐层状态和输入的函数学习到的。
以上就是核心解释。我们应该知道像原始LSTM那样的梯度截断并不是对LSTM可以缓解梯度消失的准确解释。当然,也要知道当考虑全部梯度时,整个解释也是与梯度截断时的解释类似的。接下来是一些补充,可以参考。
HMM
- 隐马尔可夫模型的结构
HMM - 有些算法岗需要结合业务场景