问题1、SVM相关,怎么理解SVM,对偶问题怎么来的,核函数是怎么回事。
SVM是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机。
SVM为什么要将原始问题转换为对偶问题来求解,原因如下:
- 对偶问题将原始问题中的约束转为了对偶问题中的等式约束;
- 方便核函数的引入;
- 改变了问题的复杂度。由求特征向量w转化为求比例系数a,在原始问题下,求解的复杂度与样本的维度有关,即w的维度。在对偶问题下,只与样本数量有关。
核函数的使用实际上是增加维度,把原本在低维度里的样本,映射到更高的维度里,将本来不可以线性分类的点,变成可以线性分类的。
文末免费送电子书:七月在线干货组最新 升级的《名企AI面试100题》免费送!
问题2、集成学习的方式,随机森林讲一下,boost讲一下,XGBOOST是怎么回事讲一下。
集成学习的方式主要有bagging,boosting,stacking等,随机森林主要是采用了bagging的思想,通过自助法(bootstrap)重采样技术,从原始训练样本集N中有放回地重复随机抽取n个样本生成新的训练样本集合训练决策树,然后按以上步骤生成m棵决策树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。
boosting是分步学习每个弱分类器,最终的强分类器由