面经汇总-1-模型

bert & transformer

BERT
Transformer

  • transformer或bert的实现方法

  • transformer的attention实现
    在这里插入图片描述

  • bert的两个上游任务如何实现

    • Masked LM:
      • mask 15%
      • 80% [MASK],10% random,10% unchange
    • Next Sentence Prediction (NSP)
      • [CLS] to predict
      • 50% isNext,50% not
  • bert的下游任务,如何进行序列预测

  • bert可以如何优化

  • bert和transformer的区别

  • logsoftmax和softmax的区别

    • log_softmax能够解决函数overflow和underflow,加快运算速度,提高数据稳定性。
      在这里插入图片描述

LSTM

  • dropout如何进行反向传播
    梯度
    r a n d o m M a s k ( x i ) = { 0 , r i < p 1 / ( 1 − p ) , r i ≥ p randomMask(x_i)=\left\{ \begin{aligned} 0,r_i<p \\ 1/(1-p) ,r_i\geq p \end{aligned} \right. randomMask(xi)={0ri<p1/(1p),rip

  • 解释一下梯度消失现象

    • ReLU来替代sigmod
    • 使用长短期记忆网络
    • 爆炸
    • 使用梯度截断(Gradient Clipping)
    • 残差结构
    • 批量归一化
  • 解释精确率,召回率,F1值
    在这里插入图片描述
    在这里插入图片描述

  • LSTM的内部结构
    LSTM

  • LSTM模型可以如何来改进

  • LSTM防止梯度消失
    在这里插入图片描述

  • 1.cell状态的加法更新策略使得梯度传递更恰当。

  • 2.门控单元可以决定遗忘多少梯度,他们可以在不同的时刻取不同的值。这些值都是通过隐层状态和输入的函数学习到的。

以上就是核心解释。我们应该知道像原始LSTM那样的梯度截断并不是对LSTM可以缓解梯度消失的准确解释。当然,也要知道当考虑全部梯度时,整个解释也是与梯度截断时的解释类似的。接下来是一些补充,可以参考。

HMM

  • 隐马尔可夫模型的结构
    HMM
  • 有些算法岗需要结合业务场景
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值