机器学习
- 全概率公式、贝叶斯公式
- 模型训练为什么引入偏差和方差
- CRF、朴素贝叶斯、最大熵模型、马尔科夫随机场、混合高斯模型
- 如何解决过拟合问题
- ONE-HOT的作用,为什么不用数字直接表示
- 决策树和随机森林
- 朴素贝叶斯为什么“朴素naive”
- kmeans初始点除了随机选取之外的方法
- LR逻辑回归
- 梯度下降如何并行化
- LR的L1/L2正则
- 决策树原理及优缺点
- Gini系数
- 出现估计概率值为0
- xgboost/gdbt/boosting
- 最优超平面
- 支持向量机SVM
- 核函数
- 怎么去除datafrom中的缺失值
- 特征无量纲化的常见操作
- 如何对类别变量进行独热编码
- LDA、PSA
深度学习
- batch-normalization
- 激活函数的用途及常见的激活函数
- softmax原理及应用
- CNN的平移不变性
- Alexnet,VGG,GoogleNet,Resnet
- 残差网络怎么解决梯度消失的问题
- LSTM怎么解决梯度消失的问题
- attention原理,对比CNN,RNN,优势有哪些
- self-attention为什么可以替代seq2seq
NLP
- glove的损失函数
- glove为啥不如word2vec常用
- 层次softmax流程
- 负采样流程
- 怎么衡量学到的embedding的好坏
- CRF/LDA原理
- 马尔科夫链收敛性质
- MCMC
- 给定平稳矩阵如何得到概率分布样本表
- 坐标转换采样
- EM算法
- bert原理
- CNN/RNN/LSTM/GRU/gpt/elmo/BERT/GNN/GCN