实习面经
1.多分类样本不均衡怎么解决
2.svm和lr的异同
3.svm hinge loss
max(0, 1-y*y^) 不关注明显分对的点:比如标注为1 预测大于等于1的点
4.lr的损失是什么
5.常见预训练模型了解吗
6.transformer结构
7.qk乘了之后 是一个标量还是矢量
8.transformer有几种mask
9.mask是怎么实现的 权重设为负无穷
10.attention的时候还有什么mask
11.Bert有几种embedding
12.Bert和Elmo的区别
https://blog.csdn.net/hyzhyzhyz12345/article/details/104119375
实习手撕
秋招面经
一面
1.简单介绍一下你了解的预训练模型
2.了解可控文本生成吗
3.transformer的结构
4.防止梯度消失梯度下降的方法
手撕:多头注意力机制
手撕:最大重合子序列,二维dp
手撕:第k大的数
二面
1.其他知识蒸馏方法
2.知道自蒸馏嘛
3.谈谈对对比学习的了解
4.多标签分类和多分类的区别
5.多标签分类loss
6.怎么把对比学习用到文本生成模型内
正样本数据增强 负样本随机挑选
手撕:天上最多同时几个飞机,贪心
手撕:每次拿1、2个,判断取n个,先拿的人获胜情况
手撕:梯度下降方法求开平方