0. 自我介绍
1.项目问题
介绍协同过滤算法,用户相似度的计算有什么优化,对上亿用户进行相似度计算的时候设计什么数据结构来加快寻找相似度高的用户?(一个一个比较太慢了,比如KNN中就用kd树来加快KNN的比较)
2.算法基础问题
2.1 信息增益和信息增益率的区别
2.2 信息增益和基尼不纯度的区别
基尼不纯度:这个样本被选中的概率乘以它被分错的概率。将来自集合中的某种结果随机应用于集合中某一数据项的预期误差率。
熵:代表集合的无序程度。
熵和基尼不纯度之间的主要区别在于,熵达到峰值的过程要相对慢一些。因此,熵对于混乱集合的判罚要更重一些
2.3 介绍GBDT,GB用在了哪里
2.4 凸优化中KKT条件的物理意义是什么
最优化理论与KKT条件
KKT条件是指在满足一些条件时,一个非线性问题能有最优化解法的一个充要条件,这是一个广义化拉格朗日乘数的成果。
一般,如果一个最优化问题:
KKT最优化条件就是指上式的最优点x(*) 必须满足: