算法面经字节篇

6个 encoder 之间是串行,每个 encoder 中的两个子模块之间是串行,子模块自身是可以并行的,注意力层和前馈神经层这两个子模块单独来看都是可以并行的,不同单词之间是没有依赖关系的。BN:Batch Norm,每次对batch中的数据按维度进行 Normalization,在训练时使用的是 batch 内数据的分布特征,校验和测试时则是全局的数据分布特征;初始化建堆的时间复杂度为O(n),排序重建堆的时间复杂度为nlog(n),所以总的时间复杂度为O(n+nlogn)=O(nlogn)
摘要由CSDN通过智能技术生成

实习面经

1.svm怎么划分,是硬划分还是软划分,怎么判断分值,为啥要用对偶,条件是什么,kkt条件
2.auc用过么 f1怎么算,带参数的f1知道吗
在这里插入图片描述
3.讲讲bert整个结构 训练任务都有啥(mask 下一句) 后续bert针对“下一句”任务的改进
4.讲讲transformers self-attention的Q K V是什么 编码和解码的区别(解码要mask)
5.用的什么激活(relu)好处是什么 self-attention除以n是干什么-标准化
6.讲w2v原理,怎么加速训练
7.relu函数是啥,relu变体
手撕:背包问题 把一个数组分为和相等的两部分

实习手撕

手撕:DP 由2 3 5 7乘出来的数 从小到大
手撕:消除ab 用栈 比如abcabbd —> cbd
手撕:岛屿数量

秋招 一面

1.你做项目遇到的比较困难的一件事
2.bert的预训练任务,你怎么看两个任务的作用?
3.albert sop
4.albert相对bert里面还有对参数量上的改进
https://blog.csdn.net/u010159842/article/details/102995704
5.bert里面多头 8变12头 参数量不变
6.Bert里面LN的作用,为什

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

持续战斗状态

很高兴可以帮到你

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值