机器学习面试题库:111-120题(12day)
KNN算法肯定不是线性的边界,所以直的边界就不用考虑了。另外这个算法是看周围最近的k个样本的分类用以确定分类,所以边界一定是坑坑洼洼的。
利群点要着重考虑, 第一点是对的,不是必须的,
当然, 如果是正态分布, 训练效果会更好,
有少量的多重线性相关性是可以的, 但是我们要尽量避免。
Var1和Var2相关系数是负的, 所以这是多重线性相关, 我们可以考虑去除其中一个。
一般地, 如果相关系数大于0.7或者小于-0.7, 是高相关的。
相关性系数范围应该是 [-1,1]。
树模型可以处理非线性模型,并且树模型的区分度更好一些。想象一下决策树和LR。
弱学习者是问题的特定部分。所以他们通常不会过拟合,这也就意味着弱学习者通常拥有低方差和高偏差。
t-SNE 算法考虑最近邻点而减少数据维度。所以在使用 t-SNE 之后,所降的维可以在最近邻空间得到解释。但 PCA 不能。
通过观察图像我们发现,即使只使用x2,我们也能高效执行分类。因此一开始 w1 将成 0;当正则化参数不断增加时,w2 也会越来越接近 0。
K-means: 不确定算法。按照定义,从结果上看,就是同样的数据集多次运行K-means算法得到不同的结果(聚类),所以其不是确定算法。从其算法原理看,其不确定性在于我们必须随机选择初始的聚类中心,之后再进行迭代,所以会产生不同的结果。
PCA:确定算法。原因在与,PCA的本质在于求解一个方差最大化问题,给定数据集,最优问题的解是确定且唯一的。