算法刷题（3）_对于线性回归,我们应该有以下哪些假设( ) (1).找到利群点很重要, 因为线性回归对-CSDN博客

本文链接：https://blog.csdn.net/weixin_42446330/article/details/86849091

问题一：对于线性回归，我们应该有以下哪些假设？

1. 找到离群点很重要, 因为线性回归对离群点很敏感

2. 线性回归要求所有变量必须符合正态分布

3. 线性回归假设数据没有多重线性相关性

1 和 2

2 和 3

1,2 和 3

以上都不是

解析：

答案: D
第1个假设, 离群点要着重考虑, 第一点是对的
第2个假设, 正态分布不是必须的. 当然, 如果是正态分布, 训练效果会更好
第3个假设, 有少量的多重线性相关性也是可以的, 但是我们要尽量避免

问题二：下面对集成学习模型中的弱学习者描述错误的是？

他们经常不会过拟合

他们通常带有高偏差，所以其并不能解决复杂学习问题

他们通常会过拟合

解析：

答案：C，弱学习者是问题的特定部分。所以他们通常不会过拟合，这也就意味着弱学习者通常拥有低方差和高偏差。

问题三：下面哪个/些选项对 K 折交叉验证的描述是正确的？

1.增大 K 将导致交叉验证结果时需要更多的时间

2.更大的 K 值相比于小 K 值将对交叉验证结构有更高的信心

3.如果 K=N，那么其称为留一交叉验证，其中 N 为验证集中的样本数量

1 和 2

2 和 3

1 和 3

1、2 和 3

解析：

答案（D)：大 K 值意味着对过高估计真实预期误差（训练的折数将更接近于整个验证集样本数）拥有更小的偏差和更多的运行时间（并随着越来越接近极限情况：留一交叉验证）。我们同样在选择 K 值时需要考虑 K 折准确度和方差间的均衡。

问题四：最出名的降维算法是 PCA 和 t-SNE。将这两个算法分别应用到数据「X」上，并得到数据集「X_projected_PCA」，「X_projected_tSNE」。下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的？

X_projected_PCA 在最近邻空间能得到解释

X_projected_tSNE 在最近邻空间能得到解释

两个都在最近邻空间能得到解释

两个都不能在最近邻空间得到解释

解析：

答案（B）：t-SNE 算法考虑最近邻点而减少数据维度。所以在使用 t-SNE 之后，所降的维可以在最近邻空间得到解释。但 PCA 不能。

PCA是一种线性算法。它不能解释特征之间的复杂多项式关系。主要利用皮尔逊相关系数对高维数组进行投影：参考；
t-SNE是基于在邻域图上随机游走的概率分布，可以在数据中找到其结构关系，因此可以通过最近邻聚类。：参考；

问题五：给定三个变量 X，Y，Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相关性系数分别为 C1、C2 和 C3。现在 X 的所有值加 2（即 X+2），Y 的全部值减 2（即 Y-2），Z 保持不变。那么运算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相关性系数分别为 D1、D2 和 D3。现在试问 D1、D2、D3 和 C1、C2、C3 之间的关系是什么？

D1= C1, D2 < C2, D3 > C3

D1 = C1, D2 > C2, D3 > C3

D1 = C1, D2 > C2, D3 < C3

D1 = C1, D2 < C2, D3 < C3

D1 = C1, D2 = C2, D3 = C3

解析：

答案（E）：特征之间的相关性系数不会因为特征加或减去一个数而改变。

问题六：为了得到和 SVD 一样的投射（projection），你需要在 PCA 中怎样做？

将数据转换成零均值

将数据转换成零中位数

无法做到

解析：答案（A）：当数据有一个 0 均值向量时，PCA 有与 SVD 一样的投射，否则在使用 SVD 之前，你必须将数据均值归 0。

问题七：假设我们有一个数据集，在一个深度为 6 的决策树的帮助下，它可以使用 100% 的精确度被训练。现在考虑一下两点，并基于这两点选择正确的选项。注意：所有其他超参数是相同的，所有其他因子不受影响。

1.深度为 4 时将有高偏差和低方差

2.深度为 4 时将有低偏差和低方差

只有 1

只有 2

1 和 2

没有一个

解析：答案（A)：如果在这样的数据中你拟合深度为 4 的决策树，这意味着其更有可能与数据欠拟合。因此，在欠拟合的情况下，你将获得高偏差和低方差。

To be continue......