人工智能重点（超级详细）_单样本修正法实例-CSDN博客

本文链接：https://blog.csdn.net/s_m_c/article/details/112648742

本文概述了研究生阶段人工智能复习的重点，涉及状态空间图、状态空间表示法、钱币翻转与八数码问题的解法，以及启发式搜索、A*算法、启发函数、自动推理搜索策略。还讨论了深度学习、神经网络、卷积神经网络、集成学习和Boosting/Bagging的区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

整理了人工智能的重点知识，方便研究生阶段复习。Ideal must be loved.

第二章知识表示
状态空间图、状态空间表示法1.钱币翻转问题
2.八数码问题，会画图。答：分为四步：
1.定义问题状态的描述形式
2.把所有可能的状态都表示出来（可以省略）
3.定义一组操作：找出所有能改变状态的操作。
4.求解问题，画出全部状态空间图，最后对题目的问题进行回答总结。具体过程：（考前自己画一遍）
在这里插入图片描述

第三章自动推理
3.6 启发式搜索
1.什么是启发式搜索？

答：启发式搜索要用到问题自身的某些特性信息,以指导搜索朝着最有希望的方向前进。（启发式搜索:在选择节点时充分利用与问题有关的特征信息，估计出节点的重要性，在搜索时选择重要性较高的节点，以利于求得最优解。）

2.启发性强弱对对搜索结果的影响是什么？

答：启发信息的强度：强:降低搜索工作量,但可能导致找不到最优解；弱: 一般导致工作量加大，极限情况下变为盲目搜索,但可能可以找到最优解。

3.启发搜索的基本过程是怎样的？启发式搜索的关键是什么？

答：启发式搜索:在选择节点时充分利用与问题有关的特征信息，估计出节点的重要性，在搜索时选择重要性较高的节点，以利于求得最优解。
启发式搜索的关键：关键的一步就是如何选择下一个要考察的节点

4.启发函数和估价函数的定义？启发函数中 f(x)=g(x)+h(x)分别代表什么意思？用处是在哪里？
答：g(x)为从初始节点 S0 到节点 x 已经实际付出的代价；h(x)是从节点 x 到目标节点 Sg 的最优路径的估计代价,体现了问题的启发性信息,称为启发函数；f (x)表示从初始节点经过节点x 到达目标节点的最优路径的代价估价值,其作用是用来评估OPEN 表中各节点的重要性,决定其次序。

5.在进行启发式搜索的过程中，每个节点的评估函数的值是怎么计算的？给出一个实际问题，你用启发函数利用状态空间表示法把他的搜索过程画出来。
答：评估函数是人为规定的，以八数码问题为例。
在这里插入图片描述

6.爬山算法和最好优先算法的基本思想？他们之间的区别？爬山算法相对于最优算法的缺点是什么？
在这里插入图片描述

缺点：依赖于初始状态，容易陷于局部最值点。
存在问题：局部最大；高地：搜索无法确定要搜索的最佳方向，会产生随机走动，搜索效率降低；山脊：可能会在山脊的两面来回震荡，搜索的前进步伐会很小。
在这里插入图片描述

也就是说，爬山法更关注于当前节点，容易陷入局部最优解；而最好优先算法关注于全局，不容易陷入局部最优解。

7.结合八数码问题利用爬山算法或最好优先算法画出其搜索图。
在这里插入图片描述

A*算法
8.对于八数码问题，定义不同启发函数，不同的启发函数设置对搜索过程是怎么影响的（结合八数码）
答：h (n)=“不在位”的将牌数，可知至少需要移动 h(n)步才能达到目标。
p(n) =将牌“不在位”的距离和,即节点 n 的每一个数码与其目标位置间的距离总和。p(n) 较 h(n)具有更强的启发性，构造的搜索树节点更少。

1.启发函数为 h（n）
在这里插入图片描述

2.启发函数为 p（n):
在这里插入图片描述

3.8 博弈搜索
1.极大极小搜索过程
考试时给你一颗博弈树，分别利用极大极小算法或 a-p 剪纸来实现两个过程，并且计算出每一个节点来，要把整个过程画出来。
1.只用极大极小搜索过程：
在这里插入图片描述

2.用极大极小和 a-p 剪纸：
a-p 剪枝的基本思想：前面步骤与极大极小的过程一样，也是先规定深度，再求出终端节点的评估值，然后进行评估的倒推计算，改进在于边生成边剪枝。
在这里插入图片描述
自己写的 a-p 剪枝过程：（以井字棋为例）

以农夫问题为例：
在这里插入图片描述

2.a-p 剪纸
a-p 剪纸的缺点是什么？
在这里插入图片描述

a-p 剪枝的改进（老师没说，可以不看）
在这里插入图片描述

第四章不确定性推理1.可信度方法
第四章 ppt 的 p26 到 p34 还有自己的总结：公式要记住（三个画绿色荧光的公式）
一定要自己做一遍题（考前做）

2.主观贝叶斯
公式会给，只考–证据确定存在和证据确定不存在的情况
在这里插入图片描述

在这里插入图片描述

第四章习题，留的作业 2 的前几道都是证据确定存在和证据确定不存在的！！！（考前做！）

第五章 5-1 机器学习
1.机器学习的一般思路，画出那个框架（从样本集开始），对每个框图进行解释，解释一下里面都是什么内容。
答：一般思路:获取原始数据样本集，然后进行特征提取和特征选择来减少特征量，简化后序步骤的运算量，得到对应的特征后选择分类器（模型）进行训练，训练完成后，新来一个样本的时候可用已经训练好的分类器进行预测、推理或识别。

2.监督学习和非监督学习的区别？分别举出一些对应的算法。从两个方面阐述：样本区别，训练过程。
答：监督学习:根据已知类别的训练样本，由机器从其中进行学习或者训练，从中勾画出各类事物在特征空间分布的规律性，进而对新样本进行判断; 无监督学习或聚类:由机器从未知类别的样本中进行学习(自学习)，从中发现有利于对象分类的规律。
监督：分类、回归随便举例；无监督：K-means、主成分分析方法 PCA、DBSCAN 基于密度的聚类算法

3.关键的几个问题：
线性回归和逻辑回归分别是解决什么问题的？它们的区别是什么？
答：（预测范围。。。线性回归的 Y 的是连续的，逻辑回归的 Y 是离散的。。。）
在这里插入图片描述

4.怎么描述梯度下降法？基本步骤是什么？
假设给了一个简单的损失函数，要把基本过程写出来，梯度更新的方式是怎样的？写出公式，写出参数是怎样变化的。
答：基本步骤：1）随机初始化参数值θ，2）计算梯度，3）修改参数值，4)按照 3)迭代更新θ值，直至收敛或者θ值的改变小于设定的阈值。（写的时候有公式也写上公式）

5.影响梯度下降法的因素有哪些？影响效果如何分析（面临的问题是什么）？？答：影响因素：初值选择，步长α的选择
初值的选择是如何影响的：梯度下降不一定能够找到全局的最优解，有可能是一个局部最优解。由于有局部最优解的风险，需要多次用不同初始值运行算法。
步长是如何影响的：步长太大，会导致迭代过快，甚至有可能错过最优解。步长太小，迭代速度太慢，很长时间算法都不能结束。所以算法的步长需要多次运行后才能得到一个较为优的值。

6.标准梯度下降法（所有样本进行更新）、随机梯度下降法（单个样本进行更新）、小批量梯度下降法（按照 batch 对样本进行更新的）。区分这三种方式。
答：SGD（随机梯度下降法）：没有用所有的 m 个样本的数据，而是仅仅选取一个样本 j 来求梯度。
BGD（批量梯度下降法）：每次更新参数时都需要使用所有的样本来进行更新。SGD 与 BGD 的比较：
在这里插入图片描述

MBGD（小批量梯度下降法）：小批量梯度下降法是批量梯度下降法和随机梯度下降法的折衷，也就是对于 m 个样本，我们采用 x 个样子来迭代，1<x<m。

5-3线性分类器
1.fisher 线性判别的三个基本要素是什么？基本思想是什么？（出发点，步骤，目标分别是什么？）
答：
三个基本要素:1)判别函数的类型:从什么样的函数类中去求解；2)分类器设计的目标/准则，通常就是确定函数类中的某些待定参数；3)如何设计算法利用样本数据搜索到最优的函数参数。
基本思想：首先选定判别函数类和一定的目标(准则)，利用样本集确定出函数类中的某些未知参数，使所选的准则最好。
出发点:把所有样本都投影到低维空间，使在低维空间上最易于分类。（寻找最佳投影方向）步骤：包括两步分类器设计:1）确定最优投影方向 2）在这个方向上确定分类阈值。
目标:使两类样本投影的均值之差尽可能大些，而使类内样本的离散程度尽可能小。局限性：无法确定分类线性不可分问题。

2.感知器算法
求感知器的建模和准则函数的设置，以及他的求解过程，整个过程要了掌握。答：建模思想：用对所有错分样本的求和来表示对错分样本的惩罚。
在这里插入图片描述

单样本修正法的实例（整个的求解过程，例题和作业题，别忘记第一步是数据预处理）
（考前必须自己做一遍！！！必考！！！）

多分类问题分三种情况：

第一种情况：绝对可分
一对多：即每一模式类与其他模式类间可用单个判别平面把一个类分开，c 类转化为 c-1 个两类问题。
存在问题：
1.训练样本不均衡导致分类面有偏
2.出现歧义空间，不会恰好得到 c 个区域。如何判断属于哪一类？
在这里插入图片描述

第二种情况：成对可分
一对一：对多类中的每两类构造一个分类器。即每个模式类和其他模式类间可分别用判别平面分开。c 类转化为 c（c-1）/2 个二分类问题。
存在问题：
对比一对多，1.多用了很多两类分类器 2.不会出现样本不均衡问题 3.决策歧义区间相对较小。
如何判断属于哪一类？
在这里插入图片描述

第三种情况：最大值判决（直接多类分类）
多对多：每个类都有一个判别函数，存在 m 个判别函数。不会出现歧义空间。如何判断属于哪一类？
在这里插入图片描述

三种情况对比：第一、二种情况会出现歧义空间区域，求解计算简单。第三种情况不会出现歧义空间，但是求解计算复杂，收敛较慢。

5-4非线性分类器1、svm
什么是支持向量？什么是支持向量机？
答：支持向量就是支持或支撑平面上把两类类别划分开来的超平面的向量点。支持向量机是一种监督式学习的方法，广泛的应用于统计分类以及回归分析中。

SVM 的目标是什么？什么是最大间隔准则？什么是最优超平面？
答：SVM 的目标是找到一个超平面，使得它能够尽可能多的将两类数据点正确的分开，同时使分开的两类数据点距离分类面最远。
最大间隔准则：
在这里插入图片描述

最优超平面：
在这里插入图片描述

软阈值和硬阈值的区别是什么？
答：硬间隔：完全分类准确，不存在损失函数，只要找出两个异类正中间的那个最优超平面。软间隔：允许一定量的样本分类错误，实际上依然是线性分类器。优化函数包括两个部分，一部分是点到平面的间隔距离，一部分是误分类的损失个数。

svm 核函数的作用是什么？
答：1.实现了函数的映射，将样本由低维空间映射到了高维空间。 2.计算出了映射到高维空间的内积。

2、adaboost
积分图的计算过程。
在这里插入图片描述

adaboost 强分类器设计的基本思想是什么？（对照 ppt 上的图，把过程阐述明白）
在这里插入图片描述

（理解这个图）

标准回答：样本的处理到权重的更新，到强分类器的合成，三个基本过程。
在这里插入图片描述

为什么要提出级联分类器？级联分类器涉及的基本思想？为了解决什么样的问题？设计的基本思路？
（1）在实际应用中，由于 Adaboost 算法存在退化现象，导致随着弱分类器个数的增加，强分类器的分类能力反而会降低，所以需要对传统的 Adaboost 算法进行改进。
（2）级联分类器的思想：联合多个强分类器，对非人脸采取“先重后轻”的策略，从而快速、高效的检测出人脸。
（3）解决：“快速识别人脸，减少检测花在非人脸上的时间”
（4）将若干个强分类器由简单到复杂排列，希望经过训练使每个强分类器都有较高检测率，而误识率可以放低。
理解这个图：
在这里插入图片描述

第六章 6-1 人工神经网络
单层感知器以及多层感知器的局限。
答：单层感知器的局限性：只能解决线性可分问题。多个感知器组合，可以实现复杂空间的线性分割（如用双层感知器实现异或问题）。
多层感知器的局限性：双隐层感知器足已解决任何复杂的分类问题，但是隐层的权值无法训练，因为隐层节点不存在期望输出。

多层感知器，无隐层、单隐层、双隐层的分类能力怎么理解（ppt 上的图）
在这里插入图片描述

BP 网络的基本思想、基本过程（信号正向传播、误差反向传播）
答：信号的正向传播：正向传播时,输入样本从输入层传入,经各隐层逐层处理后,传向输出层。若输出层的实际输出与期望的输出不符,则转入误差的反向传播阶段。误差的反向传播：反向传播时，将输出以某种形式通过隐层向输入层逐层反传,并将误差分摊给各层的所有单元, 从而获得各层单元的误差信号,此误差信号即作为修正各单元权值的依据。

BP 网络存在的缺点是什么？特点是什么？
答：缺点：(1)易形成局部极小而得不到全局最优;(2)训练次数多使得学习效率低，收敛速度慢;(3)隐节点的选取缺乏理论指导;(4)训练时学习新样本有遗忘旧样本的趋势。
特点：非线性映射能力，自学习和自适应能力，多变量系统，数据融合能力。

BP 算法的收敛性与什么有关？
答：算法可能收敛于局部极小点。1.与初始值、步长等选择有关 2.与网络结构（节点数目）有关。（多凭经验或试验选择）。

径向基神经网络 RBF
基本概念，什么是径向基网络？（三层结构-输入层、隐层、输出层，隐层的激活函数采用的是径向基激活函数）
在这里插入图片描述

径向基函数里面有个拓展参数，拓展参数的性质是什么？
在这里插入图片描述

RBF 和 BP 网络的区别是什么？答：
1.RBF 需要事先确定样本中心点数目、位置，核函数的宽度，并且难以确定。
2.RBF 具有唯一最佳逼近的特性。
3.RBF 只含一个隐层，BP 网络可以有多个隐层。
4.RBF 是局部逼近网络，难以全局逼近最优解，BP 是全局逼近网络。即 BP 网络对目标函数的逼近跟所有数据都相关；RBF 对目标函数的逼近仅仅根据中心点附近的数据。 5.RBF 网络是局部响应的，而其他前向型网络的激活函数一般都是全局响应的。由于这样的不同，要实现同样的功能，RBF 比 BP 网络需要更多的神经元，这就是 RBF 网络不能取代标准前向型网络的原因。

第七章深度学习
理解第一句话（深度学习进行训练的时候是由低级到高级逐级抽象的过程）。
在这里插入图片描述

卷积神经网络
卷积神经网络的核心思想（十七字方针，并对十七字进行简单的解释）。
答：①局部感知：图像的空间联系是局部的，局部像素联系较为紧密，而距离较远的像素相关性则较弱，神经元只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。
②权值共享：所有神经元的参数共享，共享的参数可以看作是一个卷积核。
③多卷积核：提取多种特征，特征提取可能更充分。
④空间下采样：利用图像局部相关性的原理，对图像进行子抽样，可以减少数据处理量同时保留有用信息。

两个问题：
如何来确定隐层神经元的个数？（看 ppt）
如何来计算隐层参数个数？（习题，结合 lenet5 和 alxnet 模型）

神经元、参数和连接数的计算：
神经元个数：与输入图像大小、卷积核大小及种类、卷积步长有关边长=([（图像边长-卷积边长）/步长]+1)卷积核种类数
参数个数：只与卷积核大小及种类有关参数个数=卷积核大小种类数
连接数：
连接数=神经元个数*卷积核大小

如果是多通道的输入怎么分析？
空间下采样（池化）具体是怎么做的？重叠池化和无重叠池化？
无重叠池化简单，重叠池化计算和卷积层的计算方式是一样的（结合 alxnet 分析每一个细节）

几种深度学习网络优化的方式
解决过拟合的方式有哪些？（数据增强、正则化、dropout）
在这里插入图片描述

relu 激活函数的优缺点是什么？ Relu 函数的优缺点：
优点：
1.本质上是分段线性模型，前向计算非常简单，无需指数之类操作
2.偏导也很简单，反向传播梯度，无需指数或者除法之类操作
3.不容易发生梯度发散问题。
4.由于 Relu 关闭了左边，从而会使得很多的隐层输出为 0，即网络变得稀疏，起到了类似于 L1 的正则化作用，可以在一定程度上缓解过拟合。
5.加速了网络的训练。缺点：
1.左边全部关闭很容易导致某些隐藏节点永不使用。
2.输出不是以 0 为中心，很容易改变数据的分布。

正则化的 L1 和 L2 的目的是什么？是怎样做的？（正则化偏向于权值比较小）
答：目的是让损失函数（cost）偏向于让神经网络学习比较小的权重 w。怎样做：在优化函数里面加了一个正则化项。L1 加的那一项是 w 的绝对值，L2 加的那一项是 w 的平方（绝对值不容易求导，才有的 L2）。

dropout 目的是什么？与 L1 和 L2 的区别是什么？基本思想、基本过程是什么？
在这里插入图片描述

如何解决梯度爆炸和梯度消失？
1.使用更合适的激活函数：relu ，leakrelu 、elu 等激活函数;
2.梯度剪切（主要针对梯度爆炸）：设置一个梯度剪切阈值，更新梯度时，如果梯度超过这个阈值，就将其强制限制在这个范围内。
3.正则化
4.Batch normalization：通过对每一层的输出规范为均值和方差一致的方法，消除了 w 带来的放大缩小的影响。
5.残差结构;
6.LSTM
7.Relu：将激活函数的导数设为 1，每层网络都有相同的更新速度，就不存在梯度消失或爆炸的问题了。Relu(x)=max(x,0)

集成学习
什么是集成学习？
集成学习:使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。

Boosting 和 Bagging 的区别？这两种方法分别从哪个角度进行考量的？对训练集的选择，组合权重、生成的顺序是什么？
（1）Boosting:个体学习器间存在强依赖关系，必须串行生成的序列化方法。串行:下一个分类器只在前一个分类器预测不够准的实例上进行训练或检验。
Bagging: 个体学习器间不存在强依赖关系，可同时生成的并行化方法。并行:所有的弱分类器都给出各自的预测结果，通过组合把这些预测结果转化为最终结果。
（3）Boosting 主要关注降低偏差，Bagging 主要是降低方差
（4）Boosting：各轮训练集不独立，各轮训练集与前面各轮的学习结果相关；有权重；串行生成；Bagging:各轮训练集独立，随机选择;无权重;并行生成.