1.线性回归
1、以下哪个不是线性模型的优势?
- 简单
- 复杂
- 基本
- 可理解性好
2、示例的属性可以属于下列哪个类别?
- 无序的离散属性
- 连续属性
- 有序的离散属性
- 以上都对
3、一卖伞商家想利用天气来预测销售额,已知他只考虑温度、湿度、降雨量三种天气特征。若商家使用线性回归模型预测,则模型的输入是____ (填写阿拉伯数字) 维度的。
3
2.最小二乘解
1、最小二乘参数估计得到的线性回归模型满足什么性质?
- 均方误差为0
- 均方误差最大
- 均方误差最小
- 均方误差为1
2、最小二乘法的求解步骤是什么?
(1) 均方误差对w与b求偏导;(2) 令偏导为0;(3) 求解线性方程组。
- (1)(2)(3)
- (1)(3)(2)
- (2)(1)(3)
- (3)(1)(2)
3、基于均方误差最小化来进行模型求解的方法称为____(5个字)。
最小二乘法
3.多元线性回归
1、为了书写的简化,多元线性回归会使用下列哪种记号?
- **将向量 w w w 和 b b b 合并为一个向量,在 x x x 的最后增加一列 1 ∗ ∗ 1** 1∗∗
- 将向量 w w w 和 1 1 1 合并为一个向量,在 x x x 的最后增加一列 b b b
- 将向量 w w w 和 b b b 合并为一个向量,在 x x x 的最后增加一列
- 将向量 w w w 和 b b b 合并为一个向量,在 x x x 的最后增加一列
2、当下列哪个条件满足时,多元线性回归的最小二乘解唯一?
- X T X X^TX XTX不满秩
- X T X X^TX XTX满秩
- X X T XX^T XXT满秩
- X X T XX^T XXT不满秩
3、当 X T X X^TX XTX 不满秩时,多元线性回归需要引入____(regularization)。
正则化
4.广义线性模型
1、 l n y = w T x + b lny=w^Tx+b lny=wTx+b 被称为什么模型?
- 线性指数回归
- 线性对数回归
- 指数线性回归
- 对数线性回归
2、对数线性回归是令广义线性模型中的联系函数为什么函数的特例?
- 指数函数
- 对数函数
- 二次函数
- 绝对值函数
在广义线性模型中,联系函数起到将线性模型的预测值与真实标记联系起来的作用,线性模型逼近的目标是经过联系函数映射的标记。因此,对数线性回归的联系函数是对数函数。详细内容参见西瓜书55页。
3、广义线性模型一般形式为 y = g − 1 ( w T x + b ) y=g^{-1}(w^Tx+b) y=g−1(wTx+b) ,其中 g − 1 g^{-1} g−1 被称为____(link function).
联系函数
5.对率回归
1、单位阶跃函数的缺点是什么?
- 不连续且不可微
- 单调增
- 非负
- 最大值为1
2、对数几率函数作为单位阶跃函数的替代函数的优点是什么?
- 具有中心对称性
- 严格大于0
- 单调且任意阶可导
- 不需要写成分段形式
3、 y 1 − y \frac{y}{1-y} 1−yy反映了 x x x 作为正例的相对可能性,这个量在统计学中被称为____。
几率
6.对率回归求解
1、对数几率回归为什么不能通过令偏导为0求解?
- 均方损失函数太复杂
- 均方损失非凸
- 均方损失没有偏导为0的点
- 均方损失没有极值点
对于非凸函数来说,偏导为0的解无法保证是全局最优解。
2、下列关于梯度下降法描述错误的是?
- 可以用于求解对数几率回归
- 是一种迭代求解的方法
- 可以比较好的并行化
- 可以高效地求解所有凸优化问题
3、极大似然法最大化____函数。
似然
极大似然法首先假定数据服从某种分布,之后对分布的参数进行估计,使得观测数据在给定的统计模型下是“最可能发生的”。似然函数是观测数据在给定分布参数时的联合概率,因此,极大似然法最大化似然函数。
7.类别不平衡
1、类别不平衡问题中何时需要做特殊处理?
- 大类比小类重要
- 小类和大类一样重要
- 小类比大类重要
- 任何情况
2、以下哪种方法不是常见的类别不平衡学习方法?
- 最小二乘法
- 过采样
- 欠采样
- 阈值移动
3、处理类别不平衡问题时,通过丢掉一部分大类样本使得训练集平衡的方法被称为____ (3个字)。
欠采样
8.章节测试
1、下列关于对数几率回归的描述中错误的是?
- 无需事先假设数据分布
- 使用对数函数作为联系函数
- 可得到类别的近似概率预测
- 可直接应用现有数值优化算法求取最优解
参考广义线性模型作业第二题的解答,结合西瓜书58页3.19式可知,对数几率回归的联系函数是对数几率函数的反函数,是样本标记的对数几率。
2、孙悟空想请你帮他预测下一次妖精会在多久后出现,你会使用下列哪种方法?
- 使用历史上妖精出现的时间以及八戒每日食量数据,并使用对率回归模型
- 使用历史上妖精出现的时间以及师父念紧箍咒的时间数据,并使用指数线性回归模型
- 使用历史上妖精出现的时间以及师徒四人的前进速度数据,并使用多元线性回归模型
- 使用历史上妖精出现的时间以及沙和尚每日体重数据,并使用对数线性回归模型
3、处理类别不平衡问题时,复制小类样本不是一种好的过采样方法,下列哪个不是其原因?
- 复制样本效率低下
- 容易过拟合
- 受噪声影响大
- 有过拟合噪声的风险
复制小类样本之后,过拟合的可能性会大大增加,并且,如果小类样本中有噪声,则噪声的影响会被成倍放大,模型过拟合噪声的风险也会大幅度增加。
4、Jerry想通过西瓜的重量、西瓜的颜色、西瓜根蒂的长短来判断一个西瓜是否是好瓜,Jerry记录了一些购买西瓜的记录如下:(5500g,乌黑,长,否), (6000g,青绿,很长,是), (5800g,翠绿,短,是)。如果Jerry想收集更多西瓜数据并利用线性模型判断西瓜好坏,下列哪个选项是上述三个记录的合理表示?
- (5500,1,2), (6000,2,4), (5800,3,1)
- (5.5,1,0,0,3), (6,0,0,1,5), (5.8,0,1,0,1)
- (5500,1,0,0,5), (6000,0,1,0,3), (5800,0,0,1,1)
- (5.5,1,0,0,3), (6,0,1,0,2), (5.8,0,0,1,1)
重量是连续属性,可以直接使用其数值表示。颜色是无序的离散属性,A选项将其表示为1、2、3,引入了本不应存在的序关系。对于这种属性,其余三个选项中所使用的one-hot表示方法是一种合理的表示。根蒂的长短是有序的离散属性,我们可以使用1、2、3等数值对其进行表示,需要注意的是,在赋值时要确保数值的大小关系和属性的序关系一致。
5、小明想利用心率数据、运动与用餐时间间隔这两项数据来预测是否会发生低血糖,他利用平时锻炼数据收集了100个未发生低血糖的数据与3个发生低血糖的数据,3个发生低血糖的数据为:(180,比较久), (170,久), (165,非常久)。小明想请你帮他过采样一些低血糖数据,你认为下列哪个数据是合理的过采样数据?
- (175,比较久)
- (200,久)
- (150,非常久)
- (175,不久)
6、下列哪个模型不是广义线性模型?
- y = l n ( w x + b 1 − w x − b ) y=ln(\frac{wx+b}{1-wx-b}) y=ln(1−wx−bwx+b)
- y 3 = w x + b y^3=wx+b y3=wx+b
- y = w x + b \sqrt y = wx+b y=wx+b
- y 2 = w x + b \mathbf{y^2=wx+b} y2=wx+b
广义线性模型中的联系函数应单调可微,详见西瓜书57页。
7、下列哪个选项不是多元线性回归使用正则化的原因?
- 计算机数值精度有限
- 样例维度大于样例数
- 样例的采样过程存在偏差
- 存在大量线性相关的样例
当XT X$不满秩时,我们需要引入正则化来表达我们的归纳偏好。根据线性代数相关知识可以知道,B、D选项所描述的两种情况对应的XTX一定不满秩。当XTX可逆但是病态矩阵(条件数很大)时,标记微小的误差都会导致解产生巨大的变化。由于计算机数值精度有限,标记存储在计算机中的数值与采样值很可能并不完全相等,加之计算时的舍入误差、截断误差,最终计算出的数值解很可能与理论值相差甚远,此时也需要引入正则化。
8、在求解对率回归时,下列哪个选项不是极大似然法的优势?
- 优化目标是凸函数
- 具有闭式解
- 可以使用梯度下降法求解
- 优化目标连续可微
9、给定数据集 D = { ( − 1 , 0 ) , ( 0 , 0 ) , ( 1 , 1 ) } D=\{(-1,0), (0,0), (1,1)\} D={(−1,0),(0,0),(1,1)} ,最小二乘法学得的线性模型的斜率为____ (保留3位小数)。
0.500
10、给定数据集 D = { ( x i , y i ) } i = 1 m D=\{(x_i,y_i)\}_{i=1}^m D={(xi,yi)}i=1m, 最小化数据集到线性模型的欧式距离的平方和学得的线性模型满足 ( w ∗ , b ∗ ) = a r g m i n ( w , b ) 1 w 2 + 1 ∑ i = 1 m ( w x i − y i + b ) 2 (w^*, b^*) = \underset{(w,b)}{arg~min~} \frac{1}{w^2+1} \sum_{i=1}^m(wx_i-y_i+b)^2 (w∗,b∗)=(w,b)arg min w2+11∑i=1m(wxi−yi+b)2 .对于数据集 D = { ( − 1 , 0 ) , ( 0 , 0 ) , ( 1 , 1 ) } D=\{(-1,0), (0,0), (1,1)\} D={(−1,0),(0,0),(1,1)}, 这一方法学得的线性模型的斜率为____ (保留3位小数)。
0.535
分别求欧氏距离的平方和关于w和b的偏导,令偏导为0,联立求解即可。
11、比较上述两题求得的斜率值,最小二乘法求得的斜率____(大于/等于/小于) 最小化数据集到线性模型欧式距离的平方和求得的斜率。这一结论对一般问题也成立,可尝试证明之。
小于
12、OvR是一种常用的多分类方法,该方法每次将一个类的样例作为正例、所有其他类的样例作为反例。对于类别均衡的10分类问题,若使用OvR以及阈值移动法来训练,则阈值应设为____ (保留3位小数)。
0.100
采用OvR时,m+/m- = 1/9,因此当几率大于1/9时预测为正例,可得阈值为0.100。
13、对率回归可以得到样例是正类的概率的____(精确值/近似估计)。
近似估计
14、对率回归____(需要/不需要) 事先假设数据分布。
不需要
15、多元线性回归不满秩的情况下____(是/否)可以通过加入归纳偏好来选取较好的解。
是