机器学习面试题库：111-120题（12day）

最新推荐文章于 2024-09-30 13:49:56 发布

空城不空99

最新推荐文章于 2024-09-30 13:49:56 发布

阅读量280

点赞数

分类专栏：机器学习文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/cui1004/article/details/108171726

版权

机器学习专栏收录该内容

16 篇文章 13 订阅

订阅专栏

机器学习面试题库：111-120题（12day）

在这里插入图片描述
KNN算法肯定不是线性的边界，所以直的边界就不用考虑了。另外这个算法是看周围最近的k个样本的分类用以确定分类，所以边界一定是坑坑洼洼的。

利群点要着重考虑, 第一点是对的，不是必须的,
当然, 如果是正态分布, 训练效果会更好，
有少量的多重线性相关性是可以的, 但是我们要尽量避免。

在这里插入图片描述
Var1和Var2相关系数是负的, 所以这是多重线性相关, 我们可以考虑去除其中一个。
一般地, 如果相关系数大于0.7或者小于-0.7, 是高相关的。
相关性系数范围应该是 [-1,1]。

在这里插入图片描述

树模型可以处理非线性模型，并且树模型的区分度更好一些。想象一下决策树和LR。
在这里插入图片描述

弱学习者是问题的特定部分。所以他们通常不会过拟合，这也就意味着弱学习者通常拥有低方差和高偏差。

在这里插入图片描述
t-SNE 算法考虑最近邻点而减少数据维度。所以在使用 t-SNE 之后，所降的维可以在最近邻空间得到解释。但 PCA 不能。

通过观察图像我们发现，即使只使用x2，我们也能高效执行分类。因此一开始 w1 将成 0；当正则化参数不断增加时，w2 也会越来越接近 0。
在这里插入图片描述

K-means: 不确定算法。按照定义，从结果上看，就是同样的数据集多次运行K-means算法得到不同的结果（聚类），所以其不是确定算法。从其算法原理看，其不确定性在于我们必须随机选择初始的聚类中心，之后再进行迭代，所以会产生不同的结果。
PCA：确定算法。原因在与，PCA的本质在于求解一个方差最大化问题，给定数据集，最优问题的解是确定且唯一的。
在这里插入图片描述