1.集合中的元素没有特定顺序但可以重复。
参考答案:错误
集合(set)是一个无序的不重复元素序列。
创建一个空集合必须用 set() 而不是 { },因为 { } 用来创建一个空字典。
2.在距离度量中,最常用的是“闵可夫斯基距离”。当p=2时,闵可夫斯基距离就是欧式距离,当p=1时,闵可夫斯基距离就是曼哈顿距离。
参考答案:正确
3.聚类和分类的区别在于用于聚类的训练样本的类标记是未知的。
参考答案:正确
聚类无标签
4.机器学习算法在图像识别领域的性能表现可能会超过人类。
参考答案:正确
人类生活在看得见和看不见的世界
5.列表是不可变对象,支持在原处修改。
参考答案:错误
前后逻辑矛盾,不可变对象怎么修改。
6.决策树学习是一种逼近离散值目标函数的方法,学习到的函数被表示为一棵决策树。
参考答案:正确
7.梯度下降,就是沿着函数的梯度(导数)方向更新自变量,使得函数的取值越来越小,直至达到全局最小或者局部最小。
参考答案:正确
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。在机器学习算法中,在最小化损失函数时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数,和模型参数值。反过来,如果我们需要求解损失函数的最大值,这时就需要用梯度上升法来迭代了。梯度下降是一个函数f(x)找它的最小值所在点的一种方法。
梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。在机器学习中,基于基本的梯度下降法发展了两种梯度下降方法,分别为随机梯度下降法和批量梯度下降法。
8.学习率越大,训练速度越快,最优解越精确。
参考答案:错误
9.线性回归是一种有监督机器学习算法,它使用真实的标签进行训练。
参考答案:正确
10.最小二乘法是基于预测值和真实值的均方差最小化的方法来估计线性回归学习器的参数w和b。
参考答案:正确
11.完成的训练模型可以保存为外部文件,再次使用模型时,不需要重新训练。
参考答案:正确
12.精确率、查全率、准确率、F1分数四种指标各有侧重,指标值都是越高越好,最佳值均为1,最差值均为0。
参考答案:正确
F1分数(F1 Score),是统计学中用来衡量二分类(或多任务二分类)模型精确度的一种指标。它同时兼顾了分类模型的准确率和召回率。F1分数可以看作是模型准确率和召回率的一种加权平均,它的最大值是1,最小值是0,值越大意味着模型越好。
13.查全率越高,意味着模型漏掉的样本越少,当假阴性的成本很高时,查全率指标有助于衡量模型的好坏。
参考答案:正确
真实 1 | 真实 0 | |
预测 1 | True Positive(TP)真阳性 | False Positive(FP)假阳性 |
预测 0 | False Negative(FN)假阴性 | True Negative(TN)真阴性 |
查准率(precision),指的是预测值为1且真实值也为1的样本在预测值为1的所有样本中所占的比例。召回率(recall),也叫查全率,指的是预测值为1且真实值也为1的样本在真实值为1的所有样本中所占的比例。平衡F分数(BalancedScore)。
14.列表、元组和字符串都支持双向索引,有效索引的范围为[-L,L],L为列表、元组或字符串的长度。
参考答案:错误
字符串属于 Python 有序序列,和列表、元组一样都支持双向索引。
从第二位开始(包含)截取到倒数第二位(不包含) print ("list[1:-2]: ", list[1:-2])
字符串等正序从下标0开始,有效索引的范围为[-L,L-1]
15.列表、元组和字符串属于有序序列,其中的元素有严格的先后顺序。
参考答案:正确
16.一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;根结点包含样本全集。
参考答案:正确
17.Sigmoid函数能够把输入的连续实值变换为0和1之间的输出。
参考答案:正确
Sigmoid函数将线性回归线转为逻辑回归线。
18.监督学习的学习数据既有特征(feature),也有标签(label)。
参考答案:正确
19.线性回归主要用于解决回归问题,其因变量是连续的值。
参考答案:正确
20.k均值算法,是一种原型聚类算法。
参考答案:正确
21.聚类生成的组称为簇,簇内任意对象之间具有较高的相似度,而簇间任意对象之间具有较高的相异度。
参考答案:正确
22.超参数选择不当,会对模型有较大的负面影响,所以在参数调整策略方面,所有超参数都同等重要。
参考答案:错误
通常可以将超参数分为三类:网络参数、优化参数、正则化参数。
网络参数:可指网络层与层之间的交互方式(相加、相乘或者串接等)、卷积核数量和卷积核尺寸、网络层数(也称深度)和激活函数等。
优化参数:一般指学习率(learning rate)、批样本数量(batch size)、不同优化器的参数以及部分损失函数的可调参数。
正则化:权重衰减系数,丢弃比率(dropout)。
本质上,参数调整是模型优化寻找最优解和正则项之间的关系。网络模型优化调整的目的是为了寻找到全局最优解(或者相比更好的局部最优解),而正则项又希望模型尽量拟合到最优。两者通常情况下,存在一定的对立,但两者的目标是一致的,即最小化期望风险。模型优化希望最小化经验风险,而容易陷入过拟合,正则项用来约束模型复杂度。所以如何平衡两者之间的关系,得到最优或者较优的解就是超参数调整优化的目的。
超参数在调整中重要程度分先后,在具体项目中具体而论。
23.训练集与验证集的样本是不同的。
参考答案:正确
24.在各类机器学习算法中,过拟合和欠拟合都是可以彻底避免的。
参考答案:错误
机器学习永远在寻找最优解的路上。
25.寻找最优超参数费时费力,应该在模型训练之前就指定最优参数。
参考答案:错误
采用模型和数据集的不同导致模型训练前人为或经验可以预估参数,但无法指定最优参数。这句话若是正确就是对机器学习的颠覆。
26.准确率是所有正确识别的样本占样本总量的比例。当所有类别都同等重要时,采用准确率最为简单直观。
参考答案:正确
27.Pandas中利用merge函数合并数据表时默认的是内连接方式。
参考答案:正确
28.同一个列表中的元素的数据类型可以各不相同。
参考答案:正确
29.回归中利用最小二乘法主要通过最小化误差的平方来寻找一个数据匹配的最佳函数。
参考答案:正确
30.均方根误差与均方误差二者没有关系。
参考答案:错误
首先应该了解,“均”代表的意思是“平均Mean”,“方”代表的意思是“平方Square”,“根”代表的意思是“开放Root”,“误差”代表的意思是“测量值和真值的差Error”,“差”代表的意思是“样本值和样本均值的差”。故而下面的几个
均方根误差(RMSE):顾名思义,均方根误差是对样本点的测量值和真值先做差,再求平方,然后做平均运算,最后做开方。其表征的含义是,测量值与真值曲线的拟合程度。用来衡量测量的准确程度,均方根误差值越小,测量精度越高。
均方误差(MSE):顾名思义,均方误差是对样本点的测量值和真值先做差,再求平方,然后做平均运算。其表征的含义也是,测量值和真值曲线的拟合程度。用来衡量测量的准确程度,均方误差越小,测量精度越高。其与均方根误差的关系是:
均方根(RMS):顾名思义,均方根是对样本值先进行平方运算,再求平均值,然后开放。其表征的含义是,交流电压和电流的有效值,用来衡量平均功率。
方差(Variance):方差的概念和前面的词义拆分不对应,具体原因在寻找。其是先对样本值和样本均值求差,再求平方和,然后求平均。
均方差(Standard Deviation):均方差的概念也和前面的词义拆分不相对应。其是先对样本值和样本均值先求差,再求平方和,然后求平均,最后开方运算。
均方根误差,均方误差和均方差与方差的区别:显然,两组词一个以“误差”结尾,一个以“差”结尾。故而均方根误差和均方误差表征的是测量曲线和真值曲线的拟合程度,而方差和均方差代表的是样本值和样本均值的拟合程度,换句话说,即样本值的离散程度。
31.k近邻学习是一种常用的监督学习方法,其工作机制为:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居信息进行预测。因此k近邻算法的核心是k值和距离度量的选取。
参考答案:正确
32.信息熵是度量样本集合纯度最常用的一种指标。信息熵的值越大,说明样本集合的纯度越高。
参考答案:错误
化学中熵指的是混乱程度,信息熵越高信息越混乱,样本集合脏数据越多。
33.Sigmoid函数的导数是以它本身为因变量的函数。
参考答案:正确
34.数据集一般划分为训练集、验证集和测试集三部分,训练集用于建模,验证集(开发集)用于模型验证与矫正,测试集用于模型的最终评估。
参考答案:正确
35.F1值是精确率与查全率的加权平均值,综合平衡了精确率与查全率两个指标的特点,F1值突出对分类错误的评估。
参考答案:正确
36.在数据规模较小时,通过数据增强技术,可以有效弥补数据集的不足,扩充数据量,改善数据分布,提升模型训练质量。
参考答案:正确
37.岭回归是对线性回归的优化,在线性回归的基础上,对损失函数增加了一个L2正则项,目的是降低方差,提高模型泛化能力。
参考答案:正确
38.训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响,例如在分类任务中至少要保持样本的类别比例相似。
参考答案:正确
39.Python使用lambda创建匿名函数,匿名函数拥有自己的命名空间。
参考答案:正确
40.Pandas中可以通过行索引或行索引位置的切片形式选取行数据。
参考答案:正确
41.面对大规模数据集时,模型训练更容易发生过拟合现象。
参考答案:错误
过拟合与数据集规模没有必然联系。
42.直观上看,我们希望“物以类聚”,即聚类的结果“簇内相似度”高,且“簇间”相似度低。
参考答案:正确
这句话描述了分类成功的结果与期望,分类本身就是要同类结合,特征明显。
43.若按照属性a划分后获得的信息增益越大,意味着使用属性a划分所获得的纯度提升越大。因此,可选择获得最大信息增益的属性作为决策树的最优划分属性。著名的ID3决策树学习算法就是以信息增益为准则来选择划分属性的。
参考答案:正确
44.通过求解损失函数的最小值,可以实现求解模型参数、优化模型参数和评价模型学习效果的目的。
参考答案:正确
45.逻辑回归算法是一种广义的线性回归分析方法,它仅在线性回归算法的基础上,利用Sigmoid函数对事件发生的概率进行预测。
参考答案:正确
46.逻辑斯蒂(对数几率)回归是一种回归学习方法。
参考答案:错误
试题解析:解析:逻辑斯蒂(对数几率)回归是一种分类学习方法。
逻辑斯蒂回归(周志华书中把他叫做对数几率回归)不是用于回归而是用于分类,是用来解决二分类的问题(Binary Classification)。
47.正则化是为了防止模型过拟合而引入额外信息,对模型原有逻辑进行外部干预和修正,从而提高模型的泛化能力。
参考答案:正确
48.聚类需要从没有标签的一组输入向量中寻找数据的模型和规律。
参考答案:正确
聚类无监督
49.对于大规模数据集而言,数据增强是一种有效提升数据质量的手段。
参考答案:正确
50.Lasso回归是对线性回归的优化,在线性回归的基础上,对损失函数增加了一个L1正则项,目的是降低方差,提高模型泛化能力。
参考答案:正确
Lasso回归是在损失函数后,加L1正则化,如下所示:
m为样本个数,k为参数个数,其中为L1正则化。
此外:还有L2正则化:,加了这种正则化的损失函数模型为:脊(岭)回归(Ridge Regression)。
51.回归预测的目标函数是离散值,分类预测的目标函数是连续值。
参考答案:错误
刚好颠倒
52.数据标准化有利于加快模型的收敛速度,提升模型的泛化能力。
参考答案:正确
53.精确率越高,意味着误报率越低,因此,当误报的成本较高时,精确率指标有助于判断模型的好坏。
参考答案:正确
试卷分析:多选题考察主要涉及Python基础、Python第三方库科学计算基础软件包NumPy、结构化数据分析工具Pandas、绘图库Matplotlib、科学计算工具包SciPy等的具体应用、机器学习基本流程、数据集知识、机器学习模型优化方法、回归与分类问题等,试题中出现的难点深挖角度来说不少。总的来说,题目有一定难度但由于题型缘故,非黑即白,得分还是较为容易。