西瓜书习题 - 3.线性模型

IT斜杆青年

已于 2022-12-16 19:41:58 修改

阅读量1.5w

点赞数 30

分类专栏：西瓜书习题文章标签：回归

于 2022-10-25 16:30:21 首次发布

本文链接：https://blog.csdn.net/wdnshadow/article/details/127516126

版权

西瓜书习题专栏收录该内容

10 篇文章

订阅专栏

1.线性回归

1、以下哪个不是线性模型的优势？

简单
复杂
基本
可理解性好

2、示例的属性可以属于下列哪个类别？

无序的离散属性
连续属性
有序的离散属性
以上都对

3、一卖伞商家想利用天气来预测销售额，已知他只考虑温度、湿度、降雨量三种天气特征。若商家使用线性回归模型预测，则模型的输入是____ (填写阿拉伯数字) 维度的。

3

2.最小二乘解

1、最小二乘参数估计得到的线性回归模型满足什么性质？

均方误差为0
均方误差最大
均方误差最小
均方误差为1

2、最小二乘法的求解步骤是什么？

(1) 均方误差对w与b求偏导；(2) 令偏导为0；(3) 求解线性方程组。

(1)(2)(3)
(1)(3)(2)
(2)(1)(3)
(3)(1)(2)

3、基于均方误差最小化来进行模型求解的方法称为____(5个字)。

最小二乘法

3.多元线性回归

1、为了书写的简化，多元线性回归会使用下列哪种记号？

**将向量 $w$ 和 $b$ 合并为一个向量，在 $x$ 的最后增加一列 $1 * *$
将向量 $w$ 和 $1$ 合并为一个向量，在 $x$ 的最后增加一列 $b$
将向量 $w$ 和 $b$ 合并为一个向量，在 $x$ 的最后增加一列
将向量 $w$ 和 $b$ 合并为一个向量，在 $x$ 的最后增加一列

2、当下列哪个条件满足时，多元线性回归的最小二乘解唯一？

$X^TX$ 不满秩
$X^TX$ 满秩
$XX^T$ 满秩
$XX^T$ 不满秩

3、当 $X^TX$ 不满秩时，多元线性回归需要引入____(regularization)。

正则化

4.广义线性模型

1、 $lny=w^Tx+b$ 被称为什么模型？

线性指数回归
线性对数回归
指数线性回归
对数线性回归

2、对数线性回归是令广义线性模型中的联系函数为什么函数的特例？

指数函数
对数函数
二次函数
绝对值函数

在广义线性模型中，联系函数起到将线性模型的预测值与真实标记联系起来的作用，线性模型逼近的目标是经过联系函数映射的标记。因此，对数线性回归的联系函数是对数函数。详细内容参见西瓜书55页。

3、广义线性模型一般形式为 $y=g^{-1}(w^Tx+b)$ ，其中 $g^{-1}$ 被称为____(link function).

联系函数

5.对率回归

1、单位阶跃函数的缺点是什么？

不连续且不可微
单调增
非负
最大值为1

2、对数几率函数作为单位阶跃函数的替代函数的优点是什么？

具有中心对称性
严格大于0
单调且任意阶可导
不需要写成分段形式

3、 $\frac{y}{1-y}$ 反映了 $x$ 作为正例的相对可能性，这个量在统计学中被称为____。

几率

6.对率回归求解

1、对数几率回归为什么不能通过令偏导为0求解？

均方损失函数太复杂
均方损失非凸
均方损失没有偏导为0的点
均方损失没有极值点

对于非凸函数来说，偏导为0的解无法保证是全局最优解。

2、下列关于梯度下降法描述错误的是？

可以用于求解对数几率回归
是一种迭代求解的方法
可以比较好的并行化
可以高效地求解所有凸优化问题

3、极大似然法最大化____函数。

似然

极大似然法首先假定数据服从某种分布，之后对分布的参数进行估计，使得观测数据在给定的统计模型下是“最可能发生的”。似然函数是观测数据在给定分布参数时的联合概率，因此，极大似然法最大化似然函数。

7.类别不平衡

1、类别不平衡问题中何时需要做特殊处理？

大类比小类重要
小类和大类一样重要
小类比大类重要
任何情况

2、以下哪种方法不是常见的类别不平衡学习方法？

最小二乘法
过采样
欠采样
阈值移动

3、处理类别不平衡问题时，通过丢掉一部分大类样本使得训练集平衡的方法被称为____ (3个字)。

欠采样

8.章节测试

1、下列关于对数几率回归的描述中错误的是？

无需事先假设数据分布
使用对数函数作为联系函数
可得到类别的近似概率预测
可直接应用现有数值优化算法求取最优解

参考广义线性模型作业第二题的解答，结合西瓜书58页3.19式可知，对数几率回归的联系函数是对数几率函数的反函数，是样本标记的对数几率。

2、孙悟空想请你帮他预测下一次妖精会在多久后出现，你会使用下列哪种方法？

使用历史上妖精出现的时间以及八戒每日食量数据，并使用对率回归模型
使用历史上妖精出现的时间以及师父念紧箍咒的时间数据，并使用指数线性回归模型
使用历史上妖精出现的时间以及师徒四人的前进速度数据，并使用多元线性回归模型
使用历史上妖精出现的时间以及沙和尚每日体重数据，并使用对数线性回归模型

3、处理类别不平衡问题时，复制小类样本不是一种好的过采样方法，下列哪个不是其原因？

复制样本效率低下
容易过拟合
受噪声影响大
有过拟合噪声的风险

复制小类样本之后，过拟合的可能性会大大增加，并且，如果小类样本中有噪声，则噪声的影响会被成倍放大，模型过拟合噪声的风险也会大幅度增加。

4、Jerry想通过西瓜的重量、西瓜的颜色、西瓜根蒂的长短来判断一个西瓜是否是好瓜，Jerry记录了一些购买西瓜的记录如下：(5500g,乌黑,长,否), (6000g,青绿,很长,是), (5800g,翠绿,短,是)。如果Jerry想收集更多西瓜数据并利用线性模型判断西瓜好坏，下列哪个选项是上述三个记录的合理表示？

(5500,1,2), (6000,2,4), (5800,3,1)
(5.5,1,0,0,3), (6,0,0,1,5), (5.8,0,1,0,1)
(5500,1,0,0,5), (6000,0,1,0,3), (5800,0,0,1,1)
(5.5,1,0,0,3), (6,0,1,0,2), (5.8,0,0,1,1)

重量是连续属性，可以直接使用其数值表示。颜色是无序的离散属性，A选项将其表示为1、2、3，引入了本不应存在的序关系。对于这种属性，其余三个选项中所使用的one-hot表示方法是一种合理的表示。根蒂的长短是有序的离散属性，我们可以使用1、2、3等数值对其进行表示，需要注意的是，在赋值时要确保数值的大小关系和属性的序关系一致。

5、小明想利用心率数据、运动与用餐时间间隔这两项数据来预测是否会发生低血糖，他利用平时锻炼数据收集了100个未发生低血糖的数据与3个发生低血糖的数据，3个发生低血糖的数据为：(180,比较久), (170,久), (165,非常久)。小明想请你帮他过采样一些低血糖数据，你认为下列哪个数据是合理的过采样数据？

(175,比较久)
(200,久)
(150,非常久)
(175,不久)

6、下列哪个模型不是广义线性模型？

$y=ln(\frac{wx+b}{1-wx-b})$
$y^3=wx+b$
$\sqrt y = wx+b$
$\mathbf{y^2=wx+b}$

广义线性模型中的联系函数应单调可微，详见西瓜书57页。

7、下列哪个选项不是多元线性回归使用正则化的原因？

计算机数值精度有限
样例维度大于样例数
样例的采样过程存在偏差
存在大量线性相关的样例

当X^T X$不满秩时，我们需要引入正则化来表达我们的归纳偏好。根据线性代数相关知识可以知道，B、D选项所描述的两种情况对应的X^TX一定不满秩。当X^TX可逆但是病态矩阵（条件数很大）时，标记微小的误差都会导致解产生巨大的变化。由于计算机数值精度有限，标记存储在计算机中的数值与采样值很可能并不完全相等，加之计算时的舍入误差、截断误差，最终计算出的数值解很可能与理论值相差甚远，此时也需要引入正则化。

8、在求解对率回归时，下列哪个选项不是极大似然法的优势？

优化目标是凸函数
具有闭式解
可以使用梯度下降法求解
优化目标连续可微

9、给定数据集 $D=\{(-1,0), (0,0), (1,1)\}$ ，最小二乘法学得的线性模型的斜率为____ (保留3位小数)。

0.500

10、给定数据集 $D=\{(x_i,y_i)\}_{i=1}^m$ , 最小化数据集到线性模型的欧式距离的平方和学得的线性模型满足 $(w^*, b^*) = \underset{(w,b)}{arg~min~} \frac{1}{w^2+1} \sum_{i=1}^m(wx_i-y_i+b)^2$ .对于数据集 $D=\{(-1,0), (0,0), (1,1)\}$ , 这一方法学得的线性模型的斜率为____ (保留3位小数)。