1. 算法模型
-
树模型
1. bagging 与boosting 的区别
2. GBDT原理及与RF的区别Random Forest
3. GBDT与LR的区别,并说说什么情景下GBDT不如LR
4. Xgboost与GBDT比较,特征并行化怎么做
5. XGBoost及LightGBM
6. 选择决策树做基分类器的原因?
7.CART树的原理,和ID3以及C4.5有什么区别,回归树与分类树有什么区别。 -
Word2Vec中两种方法以及负采样和层次softmax如何优化的。
-
常用的损失函数以及对应公式并说明它们的使用情况和优缺点,以及LR中为何不能使用平方损失
-
LR与线性回归的区别
i. 损失函数:线性回归使用平方损失函数,LR则用似然函数;
ii. LR是分类算法,线性回归是回归算法 -
生成模型与判别模型
2. 模型优化
-
ABtest 如何实现流量分流:样本的独立性和采样方式的无偏性。
-
激活函数:使用激活函数的目的就是为了向网络中加入非线性因素;加强网络的表达能力,解决线性模型无法解决的问题。
-
反向传播的作用、目的、本质
梯度下降法中需要利用损失函数对所有的参数的梯度来寻找局部最小值点,而反向传播算法就是用于计算该梯度的具体方法,其本质是利用链式法则对每个参数求偏导。 -
推荐系统中Precession和recall怎么计算
推荐列表集合计算准确率,用户真实观看列表集合计算召回率 -
AUC和Gauc解析
-
假设你做了一个机器学习模型上线了。每天业务部门产生很多数据,然后你的算法把这些数据进行收集,并制作成特征,然后通过机器学习算法进行预测。但是最近一个月你突然发现你的模型效果变差了很多。请写出你计划从哪些方面,运用何种数据分析或其他办法进行诊断。
-
说一下做一个推荐系统是如何从召回,粗排,精排最终推荐的?每一个环节需要注意哪些问题?
-
如何构建用户侧特征,如何理解静态和动态特征?
-
如何理解双塔模型中cosine similarity的计算?如何理解粗排和精排的不同需求?
-
图的稀疏性问题
一个图中,顶点数 n 边数 m
当n^2>>m 时,我们称之为稀疏。
当m相对较大时,我们称之为稠密 -
关于在线学习Online Learning的几个问题,深度模型排序效果差于按热度排序,有偏特征(连续型数据非正态分布->左偏or右偏)什么时候需要转正态分布?
-
Word2Vec中为什么使用负采样?,负采样每次让一个训练样本仅仅更新一部分的权重,这样就好降低梯度下降过程中的计算量。
-
推荐系统打压保送重排策略,不仅要知道模型能做什么,更要知道它不能什么。
-
推荐模型中正负样本怎么选择,特别是负样本的选择?
-
推荐系统特征工程中的几个高级技巧
-
推荐系统中的特征工程
-
Focal Loss与GHM——解决样本不平衡利器
-
工业界推荐系统中有哪些召回策略?
-
推荐中的召回算法
-
推荐系统中的attention机制