机器学习期末复习【看这篇就够了，直接救命】

举例来说，假设有一个监督学习任务需要学习将图像分类为狗或猫。如果我们使用支持向量机作为学习算法，那么它的归纳偏好就是偏向于选择最大化边际甚至通过核技巧将其转换为更复杂的超平面来划分。反之，如果我们使用朴素贝叶斯作为学习算法，则它的归纳偏好是基于对数据满足条件独立性的假设，在学习中进行概率推断以得到最优结果。

5.请列举机器学习的三种重要学习范式。

监督学习，非监督学习，强化学习

6.什么是过拟合？什么是欠拟合？在机器学习的训练中如何判断其拟合情况？

过拟合：指模型在训练数据上表现极好，但在测试数据或者新数据上表现很差。过拟合现象主要是因为模型过学习到了所有的噪声或者随机误差，失去了泛化能力。

欠拟合：指模型无法在训练数据上没有很好地表现，以致无法将模型推广到测试数据或者新数据上。欠拟合现象可能因为模型过于简单，没有捕获数据中的重要特征或者模型数量不足造成。

一般来说，可以采用两种方法来判断拟合情况。第一种方法是通过比较训练集和测试集上的性能来确定是否存在拟合问题；另一种方法是使用交叉验证方法对模型进行评估并选择合适的模型。

7.回归任务中最常用的性能度量方法是什么？

机器学习中回归任务中常用的性能度量方法包括均方误差，

8.采用SVM和logistic回归进行分类，对训练集中的标签有什么要求？

标签必须是离散的
标签应尽可能地对数据进行准确描述
标签应该具有代表性
数据集应该具有一定的平衡性

9.梯度下降优化方法的基本步骤是什么？

确定损失函数
计算损失函数关于参数的梯度
更新参数
重复执行直到收敛

10.进行模型性能评价时，什么是混淆矩阵，什么是精确率，什么上召回率，什么是准确率，什么是代价敏感的准确率，什么是ROC曲线下的面积？如何用ROC评价模型性能？

混淆矩阵是一种对分类结果进行可视化、定量评估的方法。
精确率和召回率：精确率和召回率是两个常用的分类性能指标。以二元分类为例，精确率可以表示为：TP / (TP + FP)，召回率可以表示为 TP / (TP + FN)
准确率是指分类器正确预测的样本数占总样本数的比例，可以表示为 (TP + TN) / (TP + FP + TN + FN)
代价敏感的准确率考虑到不同类型错误的代价不同
ROC曲线通过将真正率(TPR)与率(FPR)绘制在平面上，来表示分类器的性能。这一绘制得到的ROC曲线下的面积AUC通常被用作模型性能的衡量指标，其值越接近1.0，说明模型性能越好
（1）将模型的独立测试集按照实际的负类标签分类
（2）针对某个分数阈值，用模型计算得到每个测试样本为正类的概率，将其排序
（3）以一个点（0,0）开始，按照顺序向右上方移动，每当遇到一个正样本，便在图中向上移动 1/n，其中 n 为所有测试样例数；每当遇到一个负样本，就向右移动1/m，其中 m 为所有负样例数
（4）对于不同的阈值，计算TPR（真正率）和FPR（假正率）并绘制ROC曲线，计算ROC曲线下的面积AUC就可以评估模型的性能

11.什么是线性模型？线性回归基本模型是什么？如何用最小二乘法求解闭合解？

线性模型是指模型的预测结果可以表示为特征与参数的线性组合，从而得到一个实数输出。

线性模型可以表示为：y = w1x1 + w2x2 + ... + wn*xn + b

准备训练数据，定义损失函数L(w, b) = 1/2m * sum((y^(i) - y(i))^2)，求解闭式解w = (X^T X)^(-1)X^T y，进行预测

12.Logistic回归是解决回归问题，还是分类问题？基本模型是什么？

Logistic回归通常用于解决分类问题，基本模型：y = sigmoid(w^T*+)

13.SVM的基本模型是什么？什么是支撑向量？如何解决异常值的问题？如何解决样本线性不可分的问题？

二分类模型

支撑向量是指离超平面最近的一些数据点，它们是构造超平面的关键点，也被认为是对预测结果最具影响力的样本点

当数据集线性可分时，SVM通过使用硬间隔最大化来解决异常值问题，当数据集线性不可分时，SVM使用软间隔最大化来解决问题

当数据不能通过任何超平面进行线性分割时，需要引入核技巧来将低维特征映射到高维空间中，从而在更高维度上寻找超平面

14.什么是SVM的软间隔？

SVM的软间隔是指允许一些样本点被划分到错误的类别中，从而容忍一些噪声或者异常点。与硬间隔不同，软间隔可以使SVM更加健壮并避免过拟合

15.决策树基本算法，采用ID3算法如何构建决策树？

C4.5、 CART算法中如何选择最优划分属性？

ID3算法通过计算信息增益来选择最优划分属性，在每个节点上选择能够使标签熵下降最大的属性进行划分，直到叶子节点为纯节点或者没有更多的属性可供划分。

在C4.5算法中，选择具有最高信息增益属性作为最优划分属性。在CART算法中，选择基尼指数或均方误差小的属性作为最优划分属性。

16.神经元的基本模型是什么，多层感知机中的BP算法（误差反向传播算法）？

神经元的基本模型是一个简单的线性变换和一个非线性激活函数组成的结构。

前向传播，计算误差，反向传播误差，权值更新，重复上述步骤

17.层次聚类的基本原理是什么？ K均值聚类算法？

其基本原理是通过计算不同样本之间的相似度或距离，逐步将样本合并成一个大的集合，最终构成一个以样本为末端节点的树状结构。

K均值聚类是一种基于距离度量的划分式聚类方法，它假设样本会被划分到距离最近的簇中，并在不断迭代中调整簇中心和样本的归属关系。

18. PCA算法如何实现数据降维（写出实现的步骤）？

对原始数据进行预处理，构建协方差矩阵，求解协方差矩阵的特征向量和特征值，选择保留的主成分数量，将样本映射到新的低维空间

19.采有机器学习方法解决问题的基本步骤？

收集和整理数据
确定问题类型和模型选择
特征工程
划分训练集和测试集
选择合适的模型和算法
模型的训练和评估
模型的应用和优化
模型的部署和监控

20.集成学习方法中Boosting方法与Bagging方法的基本原理及区别是什么？

Boosting方法是一种迭代式算法，其基本思想是为数据集中的每个样本调整其权重，并基于当前分类器对更难分类的样本赋予更高的权重。

Bagging方法是一种基于自助采样的有放回抽样技术，即从汇总样本中进行有放回地随机采样，得到不同的训练子集，并将这些子集分配给不同的基分类器进行独立训练。

区别：Boosting 方法中，每次训练的样本集并不是完全随机的，而是基于上一次样本分类情况进行调整，更加关注被错误分类的数据；而 Bagging 方法中每个子集的构造都相互独立，不考虑每个训练样本的权重。

Boosting 方法的集成模型通常比 Bagging 方法具有更高的预测性能，但容易产生某些样本的过拟合；而 Bagging 方法则对过拟合问题较为有效，在多个弱学习器具有近似期望和方差的情况下，误差的变化可能导致方差的降低足以抵消期望误差的提高。

Boosting 方法比 Bagging 方法更加适用于较少标记数据的场景，Bagging 方法相对适用于大规模训练集的分类问题

21.简述AdaBoost算法的过程。

22.简述PCA算法过程

三、西瓜实例

编号	色泽	根蒂	敲声	好瓜
1	青绿	蜷缩	浊响	是
2	青绿	硬挺	清脆	否

说明：

1. 该西瓜实例中，色泽有青绿、乌黑两种取值可能，根蒂有卷缩、硬挺、稍卷三种取值可能，敲声有浊响、清脆两种可能取值。

2. 若该实例的假设形式为：(色泽=？)Ù(根蒂=？)Ù(敲声=？)

回答以下问题：

西瓜对象的特征有哪些？

色泽

根蒂

敲声

2.如何描述该西瓜对象的输入空间？

3.该实例问题是分类还是回归，为什么？不连续

4.假设空间的规模是多大？3*4*3+1

5.假设（(色泽=青绿)Ù(根蒂=*)Ù(敲声=浊响)）是版本空间里的假设吗？为什么

是版本空间=假设空间-与正样本不一致-与负样本一致

6.尝试写出该训练集的版本空间。青-卷-浊青-卷-* 青-*-清

四、算法题

1。对数据点采用K均值方法（K=2）进行聚类，其中两类的初始赋值m1=（0,0），m2=（1,1）如图所示。在下面每张图中画出以初始赋值开始的均值点及该均值点下的簇划分，直到算法停止。

2.对于房屋价格问题，已知数据集{(x1,y1),(x2,y2),...,(xm,ym)}，其中x表示房屋属性，yÎR。采用线性回归模型对新的房屋输入x*进行预测的处理步骤？

3.给定数据集D如下表，根据数据集D及ID3决策树思想完成以下题目。

序号	高度	眼睛	类别
1	矮	蓝	1
2	高	蓝	1
3	高	蓝	1
4	高	褐	0
5	矮	蓝	0
6	高	蓝	0

（1）计算数据集D的信息熵。信息熵反应了数据集的什么特性？数据集纯度

（2）画出以“高度”为属性划分的决策树。计算选用属性“高度”对数据集进行划分，产生的信息增益是多少？

（3）画出以“眼睛”为属性划分的决策树。计算选用属性“眼睛”对数据集进行划分，产生的信息增益是多少？

（4）信息增益反映了什么？用于确定数据集中哪些特征对于分类最具有预测能力根据（2）（3）的分析，最终需要采用哪种属性进行划分？选信息增益大的

4.支持向量机算法

训练数据：正样本点是x_1=(3,3), x_2=(4,3), 负样本点为x_3=(1,1).

（1）试用硬间隔SVM算法写出优化问题目标函数

5.感知机算法

如图所示的训练数据集，其正实例点是x1=(3,3)T,x2=(4,3)T ,负实例点是x3=(1,1)T。试用感知机学习算法的原始形式求感知机模型f(x)=sign(w∙x+b). 这里, w=(w(1),w(2))T, x=(x1,x2)T.

6.线性判别分析算法

类1的样本：{(4,2),(2,4),(2,3),(3,6),(4,4)}；类2的样本： {(9,10),(6,8),(9,5),(8,7),(10,8)。请计算LDA的最优解W*

解：

设类1的样本为 X1 = {(4,2),(2,4),(2,3),(3,6),(4,4)}，类别2的样本为 X2 = {(9,10),(6,8),(9,5),(8,7),(10,8)}，则类别1的均值向量为：

μ1 = 1/5 * [(4+2+2+3+4), (2+42的均值向量为：

μ2 = 1/5 * [(9+6+9+8+10), (10+8+5+7+8)] = [8.4, 7.6]

接下来，我们需要计算两个类别的协方差矩阵。由于两个类别的样本数均不超过1000，且两个类别的样本数相等，因此我们采用无偏估计的方法进行协方差矩阵的估计。具体而言，对于类别1，其协方差矩阵为：

S1 = 1/(5-1) * [(4-3)^2+(2-3)^2+(2-3)^2+(3-3)^2+(4-3)^2, (4-3)(2-3)+(2-3)(4-3)+(2-3)(3-3)+(3-3)(6-3)+(4-3)(4-3); (4-3)(2-3)+(2-3)(4-3)+(2-3)(3-3)+(3-3)(6-)+(4-3)(4-3), (2-3)^2+(4-3)^2+(3-3)^2+(6-3)^2+(4-3)^2] = [1.2, 0.6; 0.6, 2.3]

类别2的协方差矩阵为：

S2 = 1/(5-1) * [(9-8.4)^2+(6-8.4)^2+(9-8.4)^2+(8-8.4)^2+(10-8.4)^2, (9-8.4)(10-7.6)+(6-8.4)(8-7.8.4)(5-7.6)+(8-8.4)(7-7.6)+(10-8.4)(8-7.6); (10-7.6)(9-8.4)+(8-7.6)(6-8.4)+(5-7.6)(9-8.4)+(7-7.6)(8-8.4)+(8-7.6)(10-8.4), (10-7.6)^2+(8-7.6)^2+(5-7.6)^2+(7-7.6)^2+(8-7.6)^2] = [6.8, -3.2; -3.2, 4.8]

接下来，我们需要计算最优的投影方向。最优的投影方向可以通过以下公式计算得到：

W* = inv(Sw) * (μ1-μ2)

其中，Sw为两个类别的协方差矩阵之和，即 Sw = S1 + S2。

将上式带入数值，可以得到：

Sw = [[8, -2.6], [-2.6, 7.1]]

(μ1-μ2) = [-5.4, -3.8]

inv(Sw) = [[0.1411, 0.0555], [0.0555, 0.1554]]

因此，

W* = inv(Sw) * (μ1-μ2) = [0.0317, 0.1229]

最终的投影方向为 W* = [0.0317, 0.1229]。

小羊一定要努力变强

关注

35
点赞
踩
125

收藏

觉得还不错? 一键收藏
打赏
3
评论
机器学习期末复习【看这篇就够了，直接救命】

在机器学习中，归纳偏好是指学习算法在学习过程中倾向于选择某些假设（或模型）而不是其他假设的一种倾向性。举例来说，假设有一个监督学习任务需要学习将图像分类为狗或猫。如果我们使用支持向量机作为学习算法，那么它的归纳偏好就是偏向于选择最大化边际甚至通过核技巧将其转换为更复杂的超平面来划分。反之，如果我们使用朴素贝叶斯作为学习算法，则它的归纳偏好是基于对数据满足条件独立性的假设，在学习中进行概率推断以得到最优结果。过拟合：指模型在训练数据上表现极好，但在测试数据或者新数据上表现很差。
复制链接

扫一扫