机器学习笔试、面试题六

1、在线性回归问题中,我们用“R方”来衡量拟合的好坏。在线性回归模型中增加特征值并再训练同一模型。下列哪一项是正确的?
A 如果R方上升,则该变量是显著的
B 如果R方下降,则该变量不显著
C 单单R方不能反映变量重要性,不能就此得出正确结论
D 都不正确

正确答案是:C

解析:单单R方不能表示变量显著性,因为每次加入一个特征值,R方都会上升或维持不变。但在“调整R方”的情况下这也有误(如果特征值显著的话,调整R方会上升)。

2、下列关于回归分析中的残差表述正确的是
A 残差的平均值总为零
B 残差的平均值总小于零
C 残差的平均值总大于零
D 残差没有此类规律

正确答案是:A

解析:回归的残差之和一定为零,故而平均值也为零

3、下列关于异方差性哪项是正确的?
A 线性回归有变化的误差项
B 线性回归有恒定的误差项
C 线性回归有零误差项
D 以上都不对

正确答案是:A

解析:在误差项中,非恒定方差的存在导致了异方差性。一般来说,非恒定方差的出现时因为异常值或极端杠杆值的存在。

4、下列哪一项说明了X,Y之间的较强关系
A 相关系数为0.9
B Beta系数为0的空假设的p-value是0.0001
C Beta系数为0的空假设的t统计量是30
D 都不对

正确答案是:A

解析:变量间的相关系数为0说明了变量间的较强关系;另一方面,p-value和t统计量仅仅衡量了非零联系的证据有多强。在数据足够多的情况下,哪怕弱影响都可能是显著的

5、在导出线性回归的参数时,我们做出下列哪种假定?
1.因变量y和自变量x的真实关系是线性的
2.模型误差是统计独立的
3.误差通常服从一个平均值为零,标准差恒定的分布
4.自变量x是非随机的,无错的
A 1,2和3
B 1,3和4
C 1和3
D 以上都对

正确答案是:D

解析:当导出回归参数时,我们做出以上全部4种假设,缺少任何一种,模型都会出错。

6、为了检验连续变量x,y之间的线性关系,下列哪种图最合适?
A 散点图
B 条形图
C 直方图
D 都不对

正确答案是:A

解析:为了检验连续变量的线性关系,散点图是最好的选择,可以看出一个变量如何关于另一个变量变化。散点图反映两个定量变量之间的关系。

7、下列哪种方法被用于预测因变量?
1.线性回归
2.逻辑回归
A 1和2
B 1
C 2
D 都不是

正确答案是: B

解析:逻辑回归是用于分类问题的

8、一个人年龄和健康之间的相关系数是-1.09,据此可以得出:
A 年龄是健康预测的好的参考量
B 年龄是健康预测的不好的参考量
C 都不对

正确答案是:C

解析:相关系数的范围是[-1,1],-1.09 是不可能的

9、下列哪个坐标用于最小二乘拟合?假设水平轴为自变量,垂直轴为因变量。

A 垂直坐标
B 正交坐标
C 都可以,视情况而定
D 都不对

正确答案是:A

解析:一般将残差想作垂直坐标,正交坐标在PCA的例子中很有用

10、假设我们有由三次多项式回归产生的数据(三次多项式完美契合数据),下列说法哪些是对的?
1.简单线性回归有高偏差和低方差
2.简单线性回归有低偏差和高方差
3.三次多项式有低偏差和高方差
4.三次多项式有低偏差和低方差
A 1
B 1和3
C 1和4
D 2和3

正确答案是:C

解析:如果选择比3更高的次数来拟合,则会过拟合,因为模型会变得更复杂。如果选择比3低的次数,模型会变得简单,这样会有高偏差和低方差。但是在三次多项式拟合的情况下,偏差和方差都是低的

1、假设你在训练一个线性回归模型,以下哪项是正确的?
1.数据越少越易过拟合
2.假设区间小则易过拟合
A 都是错的
B 1是错的,2是对的
C 1是对的,2是错的
D 都是对的

正确答案是:C

解析:1.小训练数据集更容易找到过拟合训练数据的假设,对于泛化能力,小数据集很难训练处泛化能力强的学习器。

2.从偏差和方差的权衡中可以看出,假设区间小,偏差更大,方差更小。所以在小假设区间的情况下,不太可能找到欠拟合数据的假设。

2、假设我们用Lasso回归拟合一个有100个特征值(X1,X2…X100)的数据集,现在,我们重新调节其中一个值,将它乘10(将它视作X1),并再次拟合同一规则化参数。下列哪一项正确?
A X1很可能被模型排除
B X1很可能被包含在模型内
C 很难说
D 都不对

正确答案是: B

解析:大特征值=⇒小相关系数=⇒更少lasso penalty =⇒更可能被保留

3、关于Ridge和Lasso回归在特征值选择上的方法,一下哪项正确?
A Ridge回归使用特征值的子集选择
B Lasso回归使用特征值的子集选择
C 二者都使用特征值的子集选择
D 以上都不正确

正确答案是: B

解析:Ridge回归在最终模型中用到了所有自变量,然而Lasso回归可被用于特征值选择,因为相关系数可以为零。

4、在线性回归模型中增加一个变量,下列哪一项是正确的?
1.R方和调整R方都上升
2.R方上升,调整R方下降
3.R方和调整R方都下降
4.R方下降,调整R方上升
A 1和2
B 1和3
C 2和4
D 以上都不对

正确答案是:A

解析:每次加入特征值,R方总是上升或维持不变。但调整R方并非如此,当它上升时,特征值是显著的

5、下图显示了对相同训练数据的三种不同拟合模型(蓝线标出),从中可以得出什么结论?

1.同第二第三个模型相比,第一个模型的训练误差更大
2.该回归问题的最佳模型是第三个,因为它有最小的训练误差
3.第二个模型比第一、第三个鲁棒性更好,因为它在处理不可见数据方面表现更好
4.相比第一、第二个模型,第三个模型过拟合了数据
5.因为我们尚未看到测试数据,所以所有模型表现一致
A 1和3
B 1和2
C 1、3和4
D 只有5

正确答案是:C

解析:数据的趋势看起来像以X 为自变量的二项式。更高的次数(最右边的图)的多项式对于训练数据可能具有更高的准确性,但在测试集上毫无疑问的惨败。在最左面一张图中,由于数据欠拟合,将会得到最大训练误差。

6、下列哪项可以评价回归模型?
1.R方
2.调整R方
3.F统计量
4.RMSE/MSE/MAE
A 2和4
B 1和2
C 2,3和4
D 以上所有

正确答案是:D

7、我们可以通过一种叫“正规方程”的分析方法来计算线性回归的相关系数,下列关于“正规方程”哪一项是正确的?
1.我们不必选择学习比率
2.当特征值数量很大时会很慢
3.不需要迭代
A 1和2
B 1和3
C 2和3
D 1,2和3

正确答案是:D

解析:正规方程可替代梯度下降来计算相关系数。

8、Y的预期值是关于变量X(X1,X2….Xn)的线性函数,回归线定义为Y = β0 + β1 X1 + β2 X2……+ βn Xn,下列陈述哪项正确?
1.如果Xi的变化量为 ∆Xi,其它为常量,则Y的变化量为βi ∆Xi,常量βi可以为正数或负数
2. βi 的值都是一样的,除非是其它X的βi
3.X对Y预期值的总影响为每个分影响之和
提示:特征值间相互独立,互不干扰
A 1和2
B 1和3
C 2和3
D 1,2和3

正确答案是:D

解析:Y的预期值是关于X的线性函数,这表示:

如果Xi的变化量为 ∆Xi,其它变量不变,Y的预期值随β i ∆X i而变化,β i可以为正数或负数

βi 的值都是一样的,除非是其它X的βi

X对Y预期值的总影响为每个分影响之和

Y的未知变化独立于随机变量(特别之处,当随机变量为时间序列时,Y与随机变量不是自动关联的)

它们的方差一致(同方差性)

它们一般是分散的

9、为了评价一个简单线性回归模型(单自变量),需要多少个参数?
A 1
B 2
C 不确定

正确答案是: B

解析:在简单线性回归模型中,有一个自变量,需要两个参数(Y=a+bX)

10、下图展示了两条对随机生成的数据的回归拟合线(A和B),请探究A,B的各自的残差之和

1.两张图的横纵轴大小一致
2.X轴是自变量,Y 轴是因变量
下列对A,B各自残差和的陈述哪项正确?
A A比B高
B A比B低
C 两者相同
D 以上都不对

正确答案是:C

解析:残差之和总为零。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值