机器学习高频面试真题整理

最新推荐文章于 2022-09-15 11:12:47 发布

niuyunpang

最新推荐文章于 2022-09-15 11:12:47 发布

阅读量931

点赞数

文章标签：人工智能机器学习面试

本文链接：https://blog.csdn.net/niuyunpang/article/details/117449140

版权

本文整理了机器学习面试中常见的问题，涵盖KMeans算法的k值和中心点选择、对偶概念、特征选择策略、分类器评估、AUC的理解、数据预处理方法、梯度消失问题、特征工程的定义、数据不平衡处理、高维特征分类器选择以及各种机器学习算法的优缺点。同时探讨了优化算法、特征向量归一化、RF与GBDT的区别、SVM的核函数应用、Boosting与Bagging的差异、逻辑回归的要点，以及共线性与过拟合的关系。

摘要由CSDN通过智能技术生成

添加微信：julyedufu77，回复 “ 6 ”，领取最新升级版《名企AI面试100题》电子书！！

51、KMeans算法k值及初始类簇中心点的选取

KMeans算法是最常用的聚类算法，主要思想是:在给定K值和K个初始类簇中心点的情况下，把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中，所有点分配完毕之后，根据一个类簇内的所有点重新计算该类簇的中心点(取平均值)，然后再迭代的进行分配点和更新类簇中心点的步骤，直至类簇中心点的变化很小，或者达到指定的迭代次数。

KMeans算法本身思想比较简单，但是合理的确定K值和K个初始类簇中心点对于聚类效果的好坏有很大的影响。

52、解释对偶的概念

一个优化问题可以从两个角度进行考察，一个是primal 问题，一个是dual 问题，就是对偶问题，一般情况下对偶问题给出主问题最优值的下界，在强对偶性成立的情况下由对偶问题可以得到主问题的最优下界，对偶问题是凸优化问题，可以进行较好的求解，SVM中就是将primal问题转换为dual问题进行求解，从而进一步引入核函数的思想。

53、如何进行特征选择？

特征选择是一个重要的数据预处理过程，主要有两个原因：一是减少特征数量、降维，使模型泛化能力更强，减少过拟合;二是增强对特征和特征值之间的理解。
常见的特征选择方式：

去除方差较小的特征
正则化。1正则化能够生成稀疏的模型。L2正则化的表现更加稳定，由于有用的特征往往对应系数非零。
随机森林，对于分类问题，通常采用基尼不纯度或者信息增益，对于回归问题，通常采用的是方差或者最小二乘拟合。一般不需要feature engineering、调参等繁琐的步骤。它的两个主要问题，1是重要的特征有可能得分很低（关联特征问题），2是这种方法对特征变量类别多的特征越有利（偏向问题）。
稳定性选择。是一种基于二次抽样和选择算法相结合较新的方法，选择算法可以是回归、SVM或其他类似的方法。它的主要思想是在不同的数据子集和特征子集上运行特征选择算法，不断的重复，最终汇总特征选择结果，比如可以统计某个特征被认为是重要特征的频率（被选为重要特征的次数除以它所在的子集被测试的次数）。理想情况下，重要特征的得分会接近100%。稍微弱一点的特征得分会是非0的数，而最无用的特征得分将会接近于0。

54、衡量分类器的好坏？

这里首先要知道TP、FN（真的判成假的）、F

最低0.47元/天解锁文章

niuyunpang

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习高频面试真题整理

添加微信：julyedufu77，回复 “ 6 ”，领取最新升级版《名企AI面试100题》电子书！！51、KMeans算法k值及初始类簇中心点的选取KMeans算法是最常用的聚类算法，主要思想是:在给定K值和K个初始类簇中心点的情况下，把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中，所有点分配完毕之后，根据一个类簇内的所有点重新计算该类簇的中心点(取平均值)，然后再迭代的进行分配点和更新类簇中心点的步骤，直至类簇中心点的变化很小，或者达到指定的迭代次数。KMeans算法本身思想比较简单
复制链接

扫一扫