部门1实习 一面
1.介绍robert
2.了解啥分类方法
3.怎么处理连续型数据 怎么离散化
4.为什么要分训练集 测试集 验证集
5.词袋模型怎么解决某个词只在一篇文章多次出现
6.词袋和bert的区别
7.了解啥机器学习方法
8.bert结构
9.bert 位置编码咋训练的
10.transform和attention的区别
11.lstm怎么拿到顺序信息
12.怎么处理数据 归一化 标准化
部门2实习 一面
1.交叉熵和KL散度
2.对话模型的衡量指标
3.seq2seq在训练和预测的时候有什么区别,训练和预测的时候decoder的时候的输入有什么区别。训练teacher forcing;预测输入前一状态。
4.beam search
5.怎么确定训练的时候teacher forcing和预测输入前一状态的比重
6.transformer和RNN CNN
7.预训练模型是语言模型吗?
8.语言模型的定义
9.Bert和语言模型的异同
10.encoder decoder层很深,怎么保证信息从输入到输出的传递:归一化;LN
11.LN是对哪个地方做操作
12.文本对抗训练还有哪些方法
13.focal loss实践中用过么
14.不同类别样本不均衡:采样;loss权重;用树;
15.针对数据不平衡,模型层面怎么改进?
16.随机森林和gbdt的区别
手撕:K-means;
手撕:5000个词的文档,1000w+金融列表,如何快速判断文章中是否包含金融词?
部门2实习 二面
1.详细说下知识蒸馏怎么做的?知识蒸馏loss的公式?对话的loss公式?
2.蒸馏用的组后一层的输出,你了解比如中间层的蒸馏么
3.如何避免生成一些敏感的回复?
4.判断一对句子相似度怎么做?
5.通过W2V怎么拿到句子表示?(答的词表示均值,我觉得可能想问attention)
6.介绍下Bert的多头注意力的计算过程,self-attention公式(768通过三个768*64变一个头的q,k,v)
7.谱聚类了解么(不了解)
8.类别是预先定义的吗?不是;你有调研过比如密度聚类等方法么?
9.用kmeans的缺点是什么
10.kmeans的原理
秋招
蒸馏用的是输出端的蒸馏吗
蒸馏里面的温度参数了解吗
百度ERNIE了解吗
介绍一下MLM的变种 答了SpanBert T5
介绍Bert
如果是bs * max_len * emb的输入,BN和LN分别是对哪一维做;为什么nlp不用BN
知道Bert词表里的中文、英文词怎么来的吗
warmup学习率
# 题目1:将链表中的节点右移m个位置
# 示例1:
# 输入: 6->7->8 -> 9->10->NULL, m = 2
# 输出: 9->10->6->7->8->NULL
# 示例2:
# 输入: 6->7 -> 8->NULL, m = 4
# 输出: 8->6->7->NULL
# 节点定义
# class ListNode(object):
# def __init__(self, val=0, next=None):
# self.val = val
# self.next = next
# 给定head节点和位移m,实现函数rotate(head, m)
# 题目2:判断字符串2是否包含字符串1的排列,假设字符串只包含小写字母
# 示例1:
# 输入: s1 = "cd" s2 = "edcoao"
# 输出: True
# 解释: s2包含s1的排列之一 ("dc")
# 示例2:
# 输入: s1= "cd" s2 = "edocao"
# 输出: False
# 给定s1和s2,实现checkInclusion(s1, s2)