第十四天
1、判断:没有必要有一个用于应用维数降低算法的目标变量。
A
真
B
假
正确答案是:A
2、在数据集中有4个变量,如A,B,C和D.执行了以下操作:
步骤1:使用上述变量创建另外两个变量,即E = A + 3 * B和F = B + 5 * C + D。
步骤2:然后只使用变量E和F建立了一个随机森林模型。
上述步骤可以表示降维方法吗?
A
真
B
假
正确答案是:A
因为步骤1可以用于将数据表示为2个较低的维度。
3、以下哪种技术对于减少数据集的维度会更好?
A
删除缺少值太多的列
B
删除数据差异较大的列
C
删除不同数据趋势的列
D
都不是
正确答案是:A
如果列的缺失值太多(例如99%),那么可以删除这些列。
4、判断:降维算法是减少构建模型所需计算时间的方法之一。
A
真
B 假
正确答案是:
降低数据维数将花费更少的时间来训练模型。
5、以下哪种算法不能用于降低数据的维数?
A
t-SNE
B
PCA
C
LDA
D
都不是
正确答案是:D
所有算法都是降维算法的例子。
6、判断:PCA可用于在较小维度上投影和可视化数据。
A
真
B
假
正确答案是:A
有时绘制较小维数据非常有用,可以使用前两个主要分量,然后使用散点图可视化数据。
7、最常用的降维算法是PCA,以下哪项是关于PCA的?
1.PCA是一种无监督的方法
2.它搜索数据具有最大差异的方向
3.主成分的最大数量<=特征能数量
4.所有主成分彼此正交
A
2、3和4
B
1、2和3
C
1、2和4
D
以上所有
正确答案是:D
8、假设使用维数降低作为预处理技术,使用PCA将数据减少到k维度。然后使用这些PCA预测作为特征,以下哪个声明是正确的?
A
更高的“k”意味着更正则化
B
更高的“k”意味着较少的正则化
C
都不对
正确答案是: B
较高的k导致较少的平滑,因此能够保留更多的数据特征,从而减少正则化。
9、在相同的机器上运行并设置最小的计算能力,以下哪种情况下t-SNE比PCA降维效果更好?
A
具有1百万项300个特征的数据集
B
具有100000项310个特征的数据集
C
具有10,000项8个特征的数据集
D
具有10,000项200个特征的数据集
正确答案是:C
t-SNE具有二次时空复杂度。
10、对于t-SNE代价函数,以下陈述中的哪一个正确?
A
本质上是不对称的
B
本质上是对称的
C
与SNE的代价函数相同
正确答案是: B
SNE代价函数是不对称的,这使得使用梯度下降难以收敛。对称是SNE和t-SNE代价函数之间的主要区别之一。