4.
在变量选择过程中,下列哪些方法可用于检查模型的性能? ACD
A
多重变量用于同一个模型
B
模型的可解释性
C
特征的信息
D
交叉验证
变量选择过程:指的是在大量特征或者自变量中挑选出对预测结果或模型性能最有贡献的少量特征。
这一过程的目的是去除对特征没有帮助的/冗余的或噪声较大的变量,从而提高模型的性能,简化模型,减少过拟合风险,并提升可解释性。
6.
对于Bagging 哪些说法是正确的 B
A
个体学习器间相关性较高
B
个体学习器间相关性较低
C
使用“加权平均”而不是“投票法”产生结果
D
个体学习器由相同的学习算法生成
Bagging:Bootstrapping aggregating 引导聚集算法,是机器学习领域的一种团体学习算法
Bagging算法可与其他分类/回归算法结合,提高准确率/稳定性,通过降低结果的方差,避免过拟合的发生
是并行式集成学习方法的代表。
基于自助采样法获得多个含m个训练样本的采样集(有放回采样),基于每个采样集训练一个基学习器,再将基学习器进行结合
Bagging通常会对分类任务采用简单投票法,对回归任务采用简单平均法
7.
下列关于主成分分析法(PCA)说法正确的是 ABD
A
进行主成分分析之前要对数据进行中心化
B
要选出方差最大的作为主成分
C
要选出方差最小的作为主成分
D
主成分分析法可用于低维数据的可视化处理
中心化操作:将每个特征的均值调整为0
确保主成分是关于原点的,并且有助于计算协方差矩阵
PCA通常用于数据降维和可视化,
可以将高维数据投影到低维空间,从而进行可视化分析
8.
下列关于随机森林和GradientBoosting 说法正确的是 B
A
随机森林里的决策树不是相互独立的,而GradientBooting 里的决策树是相互独立的。
B
两者都使用特征的随机子集创造决策树
C
因为GrandientBoosting 里的树是互相独立的,所以可以生成平行的树。
D
GradientBoosting 总是优于随机森林。
解析:
随机森林里的决策树也是相互独立的,每棵树再训练时都使用不同的随机特征和数据子集
GradientBoosting中的树是相互依赖的,每棵树依赖前一棵树的结果,通过逐步减少误差来提升模型的性能
因此不是独立的
两者都可以使用特征的随机子集来训练各自的决策树
随机森林:每棵树使用数据集的随机子集和特征的随机子集来进行训练,保证模型的多样性
gradient boosting:每棵树依赖前一棵树的残差,但也可以使用随机特征子集进行构建,提高模型的泛化能力并防止过拟合
Gradient hoosting中的树是相互依赖的,所以不能并行生成
Gradient Boosting 和随机森林都有各自的优缺点,哪个更优取决于具体的任务和数据集的特点。
Gradient Boosting 通常在处理高偏差数据时表现更好,但更容易过拟合,且训练时间较长。
随机森林在某些情况下具有更好的泛化能力,并且训练时间更短。