机器学习期末概念复习

机器学习期末概念复习

文章目录

      • 机器学习期末概念复习
        • 概述
          • 定义
          • 发展
          • 辨析人工智能、机器学习、深度学习
          • 流程
        • 统计基础
          • 概念辨析
          • 回归分析
            • 逻辑回归
            • 高维数据降维
            • 模型训练常见术语
        • 决策树与分类算法
          • 分类算法
          • 决策树算法
            • 如何构造决策树
        • 过拟合问题
        • 分类效果评价方法
        • 集成学习
        • 聚类分析
          • 聚类分析的度量
        • 基于划分的方法
          • k-均值聚类
          • k-medoids算法
        • 基于密度聚类
        • 基于层次聚类
          • 层次聚类⽅法
        • 人工神经网络(ANN)
          • 传统神经⽹络
          • 常用激活函数
          • 训练⽅法神经⽹络
          • 学习率
          • 过拟合
        • 支持向量机(SVM)
          • SVM算法原理
        • 深度学习
          • BP 神经网络训练过程
          • 梯度消失与梯度爆炸产生原因
          • 卷神经网络
          • 数据增强
          • R-CNN的缺点
          • Fast R-CNN
          • Fast RCNN与RCNN相⽐有如下优点
          • RNN基本原理
        • 贝叶斯网络
        • 例题
          • 1. 机器学习的发展历史上有哪些主要事件?
          • 2. 机器学习有哪些常见领域?举例说明其应用
          • 3. 举例说明机器学习的基本过程,并简述各步骤操作的方法.
          • 4. 简述监督学习和无监督学习的区别和联系,并举例说明
          • 5. 举例说明监督学习的模型优化的目标,并辨别概念:损失函数, 风险函数,经验风险,结构风险.
          • 6. 什么是正则化?其功能是什么?如何理解L0, L1, L2正则化?
          • 7. 什么是交义验证?常见的交叉验证方法有哪些?
          • 8. 举例解释主成分分析的是基本思想和步骤
          • 9. 什么是过拟合?如何判断过拟合?如何减少过拟合?
          • 10. 分类解决什么问题,并举例说明.
          • 11. 简述决策树的生成过程
          • 12. 聚类分析的目的是什么?
          • 13. 讨论聚类与分类的关系
          • 14. 什么是数据的归一化?为什么对模型的输入数据进行归一化?
          • 15. 作为一种分类算法,支持向量机的基本原理是什么? SVM常用的核函数有哪些?

概述

机器学习是计算机科学的子领域,是人工智能的一个分支和实现方式

定义

本质:机器学习的任务是学习⼤量数据中隐藏的模式,利⽤这种模式可以对新的样本进⾏判别 和预测

  • 机器学习所关注的是计算机程序如何随着经验积累自动提高性能;
    • 形式化描述:对于某类任务T和性能度量P,如果⼀个计算机程序在T上以P衡量的性能随着经验E⽽⾃我完善,那么就称这个计算机程序在从经验E学习;
  • 是⼀⻔⽤来设计算法的学科,这些算法能够从数据中构造预测和描述模型;
  • 主要的理论基础涉及到概率论、数理统计、最优化理论等,核⼼要素是数据、算法和模型;

三位深度学习之父
有“计算机界诺⻉尔奖”之称的 ACM AM 图灵奖(ACM A.M. Turing Award)今⽇公布
2018 年获奖者,由引起这次⼈⼯智能⾰命的三位深度学习之⽗——蒙特利尔⼤学教授
Yoshua Bengio、多伦多⼤学名誉教授 Geoffrey Hinton、纽约⼤学教授 Yann LeCun
得,他们使深度神经⽹络成为计算的关键

发展
  • 机器学习的发展分为知识推理期、知识⼯程期、浅层学习和深度学习。
  • 在机器学习的发展过程中,⼤致出现了五⼤流派:符号主义、⻉叶斯、联结主义、进化主义、⾏为类推主义.
辨析人工智能、机器学习、深度学习

人工智能 > 机器学习 > 深度学习

  • 人工智能:使计算机模仿人类智能的任何技术;
  • 机器学习:人工智能的子集,利用统计技术随经验逐步提升完成任务的能力;
  • 深度学习:机器学习的子集,使用多层神经网络和海量数据的算法使软件经过训练完成任务,如语言和图像识别;
流程

机器学习分为监督学习和无监督学习

常见任务:分类,回归,聚类,关联分析

机器学习的主要流程是明确分析⽬标、数据收集、数据预处理、建模分析、结果评估、 部署使⽤以及学习更新。

⾸先从业务的⻆度分析, 然后提取相关的数据进⾏探查, 发现其中的问题, 在依据各算法的特点选择合适的模型进⾏实验验证,评估模型的结果, 最终选择合适的模型进⾏应⽤。

统计基础
概念辨析
  1. 总体(Population): 总体是研究对象的全体数据集合。
  2. 样本(Sample): 从总体中选取的一部分数据,用于研究、分析和推断。
  3. 推断(Inference): 根据样本数据推断出总体的一些性质或参数。
  4. 推断可靠性(Inference Reliability): 推断出的结果有多可靠。通常通过置信区间或置信度来衡量。
  5. 假设空间(Hypothetical Space): 是一个假定的参数空间,用于定义所有可能的假设。
  6. 均值(Mean): 数据集中的数值的平均值。
  7. ⽅差(Variance): 衡量数据分散程度的统计量,即数据与均值的偏离程度。
  8. 协⽅差(Covariance): 衡量两个变量同时偏离其各自均值的程度。
  9. 超参数(Hyperparameter): 在训练机器学习模型之前需要设置的参数,与模型结构相关,但不是通过训练得到的。
  10. 损失函数(Loss Function): 用于衡量模型预测与真实值之间的差距,也用于优化模型的参数以最小化损失。
  11. ⻛险函数(Risk Function): 是损失函数的期望,表示长期预测的平均误差。
  12. 训练误差(Training Error): 模型在训练数据上的误差,通常用来评估模型的性能。
  13. 正则化(Regularization): 一种用于防止模型过拟合的技术,通过对损失函数添加一个额外的项来惩罚大的参数值。
回归分析
  • 分析⼀个变量与其他变量之间的相关关系的统计⽅法就称为回归分 析。
  • 常⻅的回归分析包括线性回归、多元回归、⾮线性回归、⼴义线性回归(对数回归、 泊松回归)等。
  • 回归分析主要内容包括确定连续值变量之间的相关关系,建⽴回归模型,检验变量之间的相关程度,应⽤回归模型对变量进⾏预测等。

如何度量回归⽅程的拟合误差?常⻅的损失函数有哪些?

通常使用损失函数或误差函数来度量模型的拟合误差。损失函数描述了模型预测值与实际值之间的差距,其值越小,模型的拟合效果越好。
常见的损失函数:①均方误差损失函数 ②L1、L2损失函数 ③Smooth L1损失函数 ④huber损失函数 ⑤KL散度损失函数 ⑥交叉熵损失函数 ⑦softmax损失函数

回归分析的过程

  • 选择对⽬标变量的影响显著的变量
  • 确定输⼊变量与⽬标变量间的回归模型
  • 根据样本估计并检验回归模型及未知参数
  • 模型检验与预测精度评估

判断回归模型的好坏

判定系数:
R ² = S S R S S T = 1 − S S E S S T R²=\frac{SSR}{SST}=1-\frac{SSE}{SST} R²=SSTSSR=1SSTSSE
SST:总偏差平方和

SSR:回归平方和

SSE:残差平方和

逻辑回归

逻辑回归(Logistic Regression) 虽然被称为回归,但其实际上是分类模型,并常⽤于⼆分类。 本质:假设数据服从这个分布,然后使⽤极⼤似然估计做参数的估计。

在逻辑回归中使用对数损失函数

高维数据降维

⾼维数据降维是指采⽤某种映射⽅法, 降低随机变量的数量, 例如将数据点从⾼维空间映射 到低维空间中, 从⽽实现维数减少.

降维分为特征选择和特征提取两类:

  • 特征选择:从含有冗余信息以及噪声信息的数据中找出主要变量, 选出原始特征的 ⼀个⼦集。随机森林是⼀种⾮常流⾏的特征选择⽅法.
  • 特征提取:通过现有信息进⾏推演,构造出⼀个新的特征⼦空间, 寻找数据内部的 本质结构特征。常⽤算法有PCA, LDA和核PCA

**主成分分析(PCA)**是最常⽤的线性降维⽅法,它的⽬标是通过某种线性投影,将⾼维的数据映射到低维的空间中,并期望在所投影的维度上数据的⽅差最⼤,以此使⽤较少的维度,同时保留较多原数据的维度.
PCA的算法步骤:设有m条n维数据。

  1. 将原始数据按列组成n⾏m列矩阵X ;
  2. 将X的每⼀⾏(代表⼀个属性字段)进⾏零均值化;
  3. 求出协⽅差矩阵 ;
  4. 求出协⽅差矩阵的特征值及对应的特征向量;
  5. 将特征向量按对应特征值⼤⼩从上到下按⾏排列成矩阵,取前 k⾏组成矩阵 ;
  6. Y=PX即为降维到k维后的数据

奇异值分解
奇异值分解将一个非零的m×n实矩阵A表示为三个实矩阵的乘积形式,即A=UΣVT,其中U是m阶正交矩阵,Σ是由降序排列的非负对角线元素组成的m×n矩阵,V是n阶正交矩阵。奇异值分解一定存在,但不唯一。奇异值分解可以看作出矩阵数据压缩的一种方法。

模型训练常见术语
  • A/B测试(A/B testing)可以通过⽐较两种或多种技术的效果进⾏选择或验证, 还可以从统计的⻆度确认不同差异是否显著;
  • 基准(baseline)是模型效果⽐较的参考点, 是量化模型的最低预期指标;
  • 批次(batch) 是模型训练时⼀次迭代中使⽤的样本集合的数量;
  • 批次数量(batch size) ⼀个批次中样本的数量;
  • 周期(epoch)整个数据集所有样本的⼀次完整训练;
  • 检查点(checkpoint) ⽤于训练过程中定时保存模型信息, 使训练在被中⽌之后还可以从 上⼀检查点开始继续训练;
  • 收敛(convergence) 是指在经过⼀定次数的训练迭代后, 模型损失不再发⽣变化或变化幅度很⼩时,说明⽤当前的样本已经⽆法改进模型, 此时就认为模型达到收敛状态;
  • 泛化(generalization) 是模型对全新数据给出正确预测结果的能⼒;
  • 梯度下降(gradient descent) 是⼀种求解最⼩化模型损失和模型参数的⽅法,以迭代的⽅式调整参数, 逐渐找到权重参数和模型偏差的最佳组合, 从⽽得到损失最低时的模型 参数;
决策树与分类算法
分类算法

分类(classification) 的任务是将样本划分到合适的⽬标类中

  1. 分类算法是利⽤训练样本集获得分类函数即分类模型(分类器),从⽽实现将数据集中 的样本划分到各个类中。
  2. 分类模型通过学习训练样本中属性集与类别之间的潜在关系,并以此为依据对新样本 属于哪⼀类进⾏预测.
决策树算法

决策树通过把数据样本分配到某个叶⼦结点来确定数据集中样本所属的分类.

  • 决策树由决策结点、分⽀和叶⼦结点组成

    • 决策结点表⽰在样本的⼀个属性上进⾏的划分

    • 分⽀表⽰对于决策结点进⾏划分的输出

    • 叶结点代表经过分⽀到达的类

  • 从决策树根结点出发,⾃顶向下移动,对实例的每⼀个特征进⾏判断,根据判断结 果,将实例分配到其⼦节点中,最后到达个叶⼦结点,这个过程就是利⽤决策树进⾏ 分类的过程

如何构造决策树

决策树的构造过程主要包含以下几个步骤:

  1. 数据准备:收集和整理训练数据集,数据集需要包含输入特征和目标输出。
    2.特征选择:选择最重要的特征来划分数据集,以构建决策树的节点。特征选择的方法包括信息增益、增益率、基尼指数等。
  2. 决策树生成:根据特征选择的结果,递归地构建决策树。在每个节点处,根据选择的特征划分数据集,并向下递归,直到达到停止条件(例如,所有样本都属于同一类别,或者没有剩余特征可以用来划分)。
  3. 决策树剪枝:通过去除决策树的一些分支来改进其泛化性能。剪枝方法包括预剪枝和后剪枝。
  4. 评估模型:使用测试数据集评估决策树的性能,常用的评估指标包括准确率、精确率、召回率和F1分数等。
  5. 优化模型:通过调整参数、使用集成学习等方法优化决策树的性能。
过拟合问题
  • 训练误差代表分类⽅法对于现有训练样本集的拟合程度
  • 泛化误差代表此⽅法的泛化能⼒,即对于新的样本数据的分类能⼒如何
  • 模型的训练误差⽐较⾼,则称此分类模型⽋拟合
  • 模型的训练误差低但是泛化误差⽐较⾼,则称此分类模型过拟合
  • 对于⽋拟合问题,可以通过增加分类属性的数量、选取合适的分类属性等⽅法,提⾼ 模型对于训练样本的拟合程度

解决过拟合问题,⼀⽅⾯要注意数据训练集的质量,选取具有代表性样本的训练样本集。另⼀⽅⾯要避免决策树过度增⻓,通过限制树的深度来减少数据中的噪声对于决策 树构建的影响,⼀般可以采取剪枝的⽅法。剪枝是⽤来缩⼩决策树的规模,从⽽降低最终算法的复杂度并提⾼预测准确度,包括 预剪枝和后剪枝两类

分类效果评价方法
  • 保留法将样本集按照定⽐例划分为训练集与检验集两个集合,两个集合中样本随机分配且不重叠;
  • 蒙特卡洛交叉验证,也称重复随机⼆次采样验证,这种验证⽅法随机将数据集划分为训练集与检验集,使⽤检验集检验训练集训练的模型效果,多次重复此过程取平均值作为模型好坏的评价标准。蒙特卡洛交叉验证法也可看作是多次进⾏保留法;
  • k折交叉验证法将样本集随机地划分为k个⼤⼩相等的⼦集,在每⼀轮交叉验证中,选择⼀个⼦集作为检验集,其余⼦集作为训练集,重复k轮,保证每⼀个⼦集都作为检验 集出现,⽤K轮检验结果取平均值作为模型好坏的评价标准。最常⽤的k折交叉验证法为⼗折交叉验证
集成学习

集成学习(Ensemble learning)是通过构建并结合多个学习器来获取⽐原学习器更优的 结果完成学习任务

常见的集成学习方法

  • Bagging:利⽤bootstrap⽅法从整体数据集中采取有放回抽样得到N个数据集,在 每个数据集上学习出⼀个模型,利⽤N个模型的输出得到最后的预测结果(投票, 均值)。
  • Boosting:是学习⼀系列存在强依赖关系的弱分类器,并将其组合为⼀个强分类 器。
  • Stacking:训练⼀个模型⽤于组合其他各个模型。先训练多个不同的模型,然后把 之前训练的各个模型的输出为输⼊来训练⼀个模型,以得到⼀个最终的输出。
聚类分析

聚类分析是⼀种典型的⽆监督学习, ⽤于对未知类别的样本进⾏划分,将它们按照⼀定的规则划分成若⼲个类族,把相似(距⾼相近)的样本聚在同⼀个类簇中, 把不相似的样本分为不同类簇,从⽽揭⽰样本之间内在的性质以及相互之间的联系规律

聚类算法在银⾏、零售、保险、医学、军事等诸多领域有着⼴泛的应⽤

聚类分析的度量

聚类的⽬标是得到较⾼的簇内相似度和较低的簇间相似度,使得簇间的距离尽可能 ⼤,簇内样本与簇中⼼的距离尽可能⼩

聚类得到的簇可以⽤聚类中⼼、簇⼤⼩、簇密度和簇描述等来表⽰

  • 聚类中⼼是⼀个簇中所有样本点的均值(质⼼)
  • 簇⼤⼩表⽰簇中所含样本的数量
  • 簇密度表⽰簇中样本点的紧密程度
  • 簇描述是簇中样本的业务特征

聚类分析的度量指标⽤于对聚类结果进⾏评判,分为内部指标和外部指标两⼤类:

  • 外部指标指⽤事先指定的聚类模型作为参考来评判聚类结果的好坏
  • 内部指标是指不借助任何外部参考,只⽤参与聚类的样本评判聚类结果好坏
基于划分的方法
  • 通过将对象划分为互斥的簇进⾏聚类, 每个对属于且仅属于⼀个簇
  • 划分结果旨在使簇之间的相似性低,簇内部的相似度⾼
  • 基于划分的⽅法常⽤算法有k均值、k-medoids、k-prototype等
k-均值聚类
  • 基于划分的聚类算法,计算样本点与类簇质⼼的距离,与类簇质⼼相近的样本点划分为同⼀类簇。

  • k-均值通过样本间的距离来衡量它们之间的相似度,两个样本距离越远,则相似度越 低,否则相似度越⾼

  • k-均值算法聚类步骤如下:

  • ⾸先选取k个类簇(k需要⽤⼾进⾏指定)的质⼼,通常是随机选取。

  • 对剩余的每个样本点,计算它们到各个质⼼的欧式距离,并将其归⼊到相互间距离 最⼩的质⼼所在的簇。

  • 在所有样本点都划分完毕后,根据划分情况重新计算各个簇的质⼼所在位置。

  • 重复第(ii)步和第(iii)步, 直到迭代计算后,所有样本点的划分情况保持不变, 此时说明k-均值算法已经得到了最优解,将运⾏结果返回。

k-均值算法优缺点

  • 原理简单,容易实现,且运⾏效率⽐较⾼
  • 聚类结果容易解释,适⽤于⾼维数据的聚类
  • 采⽤贪⼼策略,导致容易局部收敛,在⼤规模数据集上求解较慢
  • 对离群点和噪声点⾮常敏感,少量的离群点和噪声点可能对算法求平均值产⽣极⼤影响,从⽽影响聚类结果
  • 算法中初始聚类中⼼的选取也对算法结果影响很⼤,不同的初始中⼼可能会导致不同 的聚类结果。对此,研究⼈员提出k-means++算法,其思想是使初始的聚类中⼼之间 的相互距离尽可能远
k-medoids算法
  • k-均值算法簇的聚类中⼼选取受到噪声点的影响很⼤,因为噪声点与其他样本点的距 离远,在计算距离时会严重影响簇的中⼼。
  • k-medoids 算法克服了k-均值算法的这⼀缺点, k-medoids算法不通过计算簇中所有样本的平均值得到簇的中⼼,⽽是通过选取原有样本中的样本点作为代表对象代表这 个簇,计算剩下的样本点与代表对象的距离,将样本点划分到与其距离最近的代表对 象所在的簇中
基于密度聚类

基于划分聚类和基于层次聚类的⽅法在聚类过程中根据距离来划分类簇,因此只能够⽤于挖掘球状簇。为了解决这⼀缺陷,基于密度聚类算法利⽤密度思想,将样本中的⾼密度区域(即样本点分布稠密的区域)划分为簇,将簇看作是样本空间中被稀疏区域(噪声)分隔开的稠密区域 这⼀算法的主要⽬的是过滤样本空间中的稀疏区域,获取稠密区域作为簇

基于密度的聚类算法是根据密度⽽不是距离来计算样本相似度,所以基于密度的聚类 算法能够⽤于挖掘任意形状的簇,并且能够有效过滤掉噪声样本对于聚类结果的影响 。常⻅的基于密度的聚类算法有DBSCAN、OPTICS和DENCLUE等。

基于层次聚类

层次聚类的应⽤⼴泛程度仅次于基于划分的聚类,核⼼思想就是通过对数据集按照层 次,把数据划分到不同层的簇,从⽽形成⼀个树形的聚类结构。 层次聚类算法可以揭⽰数据的分层结构,在树形结构上不同层次进⾏划分,可以得到 不同粒度的聚类结果。 按照层次聚类的过程分为⾃底向上的聚合聚类和⾃顶向下的分裂聚类

层次聚类⽅法
  • 把数据组织成若⼲簇,并形成⼀个相应的树状图进⾏聚类。
  • 聚合层次聚类采⽤⾃底向上的策略,⾸先把每个对象单独作为⼀类,然后根据⼀定的 规则,例如把簇间距离最⼩的相似簇合并成为越来越⼤的簇,直到所有样本凝聚成⼀ 个⼤的簇,针对给定应⽤选择最好结果的聚类层次。
  • 分裂聚类采⽤⾃顶向下的⽅法,先把所有的对象都看成⼀个簇,然后不断分解直⾄满 ⾜⼀定的条件
人工神经网络(ANN)

由简单神经元经过相互连接形成⽹状结构,通过调节各连接的权重值改变连接的强度,进⽽实现感知判断。反向传播(BP) 算法的提出进⼀步推动了神经⽹络的发展。

传统神经⽹络
  • 传统神经⽹络结构⽐较简单,训练时随机初始化输⼊参数,并开启循环计算输出结果,与实际结果进⾏⽐较从⽽得到损失函数,并更新变量使损失函数结果值极⼩,当 达到误差阈值时即可停⽌循环
  • 神经⽹络的训练⽬的是希望能够学习到⼀个模型,实现输出⼀个期望的⽬标值。学习的⽅式是在外界输⼊样本的刺激下不断改变⽹络的连接权值。
  • 传统神经⽹络主要分为⼀下⼏类:前馈型神经⽹络、反馈型神经⽹络和⾃组织神经⽹ 络。这⼏类⽹络具有不同的学习训练算法,可以归结为监督型学习算法和⾮监督型学 习算法
常用激活函数

①Sigmoid激活函数 ②Tanh/双曲正切激活函数 ③ReLU激活函数 ④ELU激活函数 ⑤Softmax激活函数

训练⽅法神经⽹络
  • 批量梯度下降法
  • 随机梯度下降法
  • Mini-batch梯度下降法
学习率

学习率控制每次更新参数的幅度,过⾼和过低的学习率都可能对模型结果带来不良影 响,合适的学习率可以加快模型的训练速度

过拟合
  • 过拟合是指模型在训练集上预测效果好,但在测试集上预测效果差
  • 常⽤的防⽌过拟合的⽅法有
    • 参数范数惩罚
    • 数据增强
    • 提前终⽌
    • Bagging等集成⽅法
    • Dropout
    • 批量正则化
支持向量机(SVM)

⽀持向量机(SVM)属于监督学习模型,主要⽤于解决数据分类问题。

SVM是⼀种⼆分类模型,它的基本模型是定义在特征空间上的间隔最⼤的线性分类器,间隔最⼤使它有别于感知机;SVM还包括核技巧,这使它成为实质上的⾮线性分 类器。

对于多元分类可将其分解为多个⼆元分类问题,再进⾏分类,主要应⽤场景有图像分 类、⽂本分类、⾯部识别和垃圾邮件检测等领域。

SVM的的学习策略就是间隔最⼤化,可形式化为⼀个求解凸⼆次规划的问题,也等价 于正则化的合⻚损失函数的最⼩化问题。SVM的的学习算法就是求解凸⼆次规划的最 优化算法

SVM算法原理

SVM算法是一种监督学习算法,主要用于分类和回归分析。其基本原理是寻找一个最优超平面,将不同类别的数据点最大化地分开。这个最优超平面是通过构造并求解一个凸二次规划问题来得到的,该问题可以转化为求解一个线性方程组。此外,SVM算法通过使用核函数将输入空间映射到一个高维特征空间,以处理非线性问题。SVM算法具有很好的泛化性能,因为它通过最小化结构风险来优化分类性能,而不是简单地最小化训练误差。

如下图R语⾔ 图形三要素包括所⽰, 即为分离超平⾯,对于线性可分的数 据集来说,这样的超平⾯有⽆穷多个(即感知机),但是⼏何间隔最⼤的分离超平⾯却是唯⼀的

image-20240106221623952
核函数

核函数在SVM算法中起着关键作用,主要用于处理非线性问题。核函数可以将输入空间映射到一个高维特征空间,使得在高维空间中线性可分。常用的核函数包括线性核函数、多项式核函数、RBF核(高斯核)和sigmoid核函数等

深度学习

深度学习是⼀种利⽤复杂结构的多个处理层来实现对数据进⾏⾼层次抽象的算法,是机器学习的⼀个重要分⽀。传统的BP算法仅有⼏层⽹络,需要⼿⼯指定特征且易出现局部 最优问题,⽽深度学习引⼊了概率⽣成模型,可⾃动地从训练集提取特征,解决了⼿⼯ 特征考虑不周的问题,⽽且初始化了神经⽹络权重,采⽤反向传播算法进⾏训练,与BP 算法相⽐取得了很好的效果。

BP 神经网络训练过程

BP神经网络的训练过程主要包含以下步骤:

  1. 网络初始化:根据系统输入输出序列(X,Y)确定网络输入层节点数n、隐含层节点数l、输出层节点数m,初始化输入层、隐含层和输出层神经元之间的连接权值,wij,wjk,初始化隐含层阈值a,输出层阈值b,给定学习速率和神经元激励函数。
  2. 隐含层输出计算:根据输入变了X,输入层和隐含层之间连接权值wij以及隐含层阈值a,计算隐含层输出H。
  3. 输出层输出计算:根据隐含层输出H,连接权值wjk和阈值b,计算BP神经网络预测输出。
  4. 误差计算:根据网络预测输出O和期望输出Y,计算网络预测误差e。
  5. 权值更新:根据网络预测误差e更新网络连接权值wij,wjk。
  6. 阈值更新:根据网络预测误差e更新网络节点阈值a,b。
  7. 判断算法迭代是否结束,若没有结束,返回步骤2。
梯度消失与梯度爆炸产生原因

梯度消失和梯度爆炸是深度学习中常见的问题,它们产生的原因主要有以下几点:

  1. 隐藏层数过多:在深度神经网络中,梯度在反向传播过程中会随着层数的增加而逐渐变小或变大,导致梯度消失或梯度爆炸。这是因为每经过一个激活函数,梯度都会乘以一个小于1的导数(如sigmoid函数的导数最大值为0.25),使得梯度在反向传播过程中逐渐消失。
  2. 不合适的激活函数:某些激活函数(如sigmoid和tanh函数)的导数在某些区间内可能会变得非常大或非常小,导致梯度爆炸或梯度消失。
  3. 初始化权重过大:如果初始化的权重值过大,在反向传播过程中梯度可能会变得非常大,导致梯度爆炸。
  4. 深度学习模型太大:深度学习模型越大,反向传播过程中需要计算梯度的参数就越多,增加了梯度爆炸和消失的风险。
卷神经网络

卷积神经⽹络(CNN)是⼀种深度学习模型或类似于 ⼈⼯神经⽹络的多层感知器,常⽤来分析视觉图像。卷积神经⽹络的创始⼈是着名的计 算机科学家Yann LeCun,他是第⼀个通过卷积神经⽹络在MNIST数据集上解决⼿写数字问题的⼈

⼀个卷积神经⽹络主要由以下5层组成:

  • 数据输⼊层(Input layer)
  • 卷积计算层(CONV layer)
  • ReLU激励层(ReLU layer)
  • 池化层(Pooling layer)
  • 全连接层(FC layer)

常见的卷积神经网络模型: ①LeNet-5 ②AlexNet ③VGGNet ④ResNet

数据增强
  • 数据增强根据当前已知的图像数据集⽣成更多的训练图像,是利⽤多种能够⽣成可信 图像的随机变换来增加原始图像数量。

  • 数据增强是在未改变原始图像特征内容的基础上对图像数量的扩充,从⽽避免图像不 ⾜⽽导致的模型过拟合、泛化性差等缺陷,在⼩型图像数据集训练时是必要的。

  • 为了增加数据量,丰富数据多样性,提⾼模型的泛化能⼒,也可以有效缓解模型过拟 合的情况,提⾼模型泛化能⼒。

  • 对于图像分类,数据增强⼀般不会改变标签, 旋转、缩 放、平移、裁剪、改变视⻆、遮挡某局部区域。 实质上相当⼀种正则化,防⽌模型记忆训练数据和过拟合

  • 图像去噪是指滤除图像中的⼲扰信息,保留有⽤信息。常⻅去噪⽅法包括⾮局部平均 过滤算法、⾼斯滤波算法和卷积神经⽹络(AutoEncoder、超分辨率图像重建)等。

  • Dropout是以概率p舍弃部分神经元,其它神经元以概率1-p被保留,舍 去的神经元的输出都被设置为零。Dropout在实践中能很好⼯作是因为其在训练阶段 阻⽌神经元的共适应

R-CNN的缺点
  • 训练时间⻓:主要原因是分阶段多次训练,⽽且对于每个region proposal都要单独计算⼀次feature map,导致整体的时间变⻓。
  • 占⽤空间⼤:主要原因是每个region proposal的feature map都要写⼊硬盘中保存, 以供后续的步骤使⽤。
  • multi-stage:⽂章中提出的模型包括多个模块,每个模块都是相互独⽴的,训练也是 分开的。
  • 测试时间⻓:由于不共享计算,所以对于test image,也要为每个proposal单独计算 ⼀次feature map,因此测试时间也很⻓
Fast R-CNN
  • 卷积不再是对每个Region Proposal进⾏,⽽是直接对整张图像。
  • ⽤Roi Pooling进⾏特征的尺⼨变换,因为全连接层的输⼊要求尺⼨⼤⼩⼀样,因此不 能直接把Region Proposal作为输⼊。
  • ⽤SoftMax代替原来的SVM分类器。
Fast RCNN与RCNN相⽐有如下优点
  • 测试时的速度得到了提升。RCNN算法与图像内的⼤量候选帧重叠,导致提取特征 操作中的⼤量冗余。⽽Fast RCNN很好地解决了这⼀问题。
  • 训练时的速度得到了提升。
  • 训练所需的空间⼤。RCNN中分类器和回归器需要⼤量特征作为训练样本,⽽Fast RCNN则不再需要额外的存储
RNN基本原理
  • RNN主要⽤来处理序列数据,理论上RNN可以对任意⻓度的序列数据进⾏处理。
  • RNN包含输⼊单元,输⼊集标记为 ,⽽输出单元的输出集则被标记为 。
  • RNN还包含隐藏单元,这些隐藏单元完成了主要⼯作。在某些情况下,RNN会引导信 息从输出单元返回隐藏单元,并且隐藏层内的节点可以⾃连也可以互连。
贝叶斯网络

贝叶斯网络,又称信念网络或概率网络,是一种概率图模型。它是基于概率推理的图形化网络,而贝叶斯公式则是这个概率网络的基础。贝叶斯网络是一种模拟人类推理过程中因果关系的不确定性处理模型,其网络拓扑结构是一个有向无环图(DAG)。节点代表随机变量,可以是可观察到的变量,或隐变量、未知参数等。节点间的有向边代表了节点间的互相关系(由父节点指向其子节点),用条件概率进行表达关系强度,没有父节点的用先验概率进行信息表达。

贝叶斯网络非常适合用于获取已发生的事件并预测几种可能的已知原因中的任意一种。例如,贝叶斯网络可以表示疾病和症状之间的概率关系。给定症状,该网络可用于计算各种疾病存在的概率。高效的算法可以在贝叶斯网络中进行推理和学习。

对变量序列(例如 语音信号或蛋白质序列)进行建模的贝叶斯网络称为动态贝叶斯网络,可以表示和解决不确定性下的决策问题的贝叶斯网络的推广称为影响图。

例题
1. 机器学习的发展历史上有哪些主要事件?
  1. 1956年:美国达特茅斯学院召开的一场学术会议上,正式提出了“人工智能”的概念,这被认为是人工智能的诞生。
  2. 1957年:罗森布拉特发明感知机模型,这是最古老的线性分类器。
  3. 1960年:塞缪尔编写了西洋跳棋程序,该程序具有学习能力,可以在不断地自我对弈中提高棋艺。
  4. 1968年:专家系统诞生,DENDRAL系统可以推断出化学分子的结构。
  5. 1981年:日本推出第五代计算机系统,其目标是实现人工智能和知识处理。
  6. 1983年:AT&T贝尔实验室的识别螺旋线的手写数字的实验被称为光学字符识别(OCR)的基准测试。
  7. 1986年:Rumelhart和Hinton等人提出反向传播算法,该算法成为了神经网络的基石。
  8. 1997年:IBM的深蓝计算机打败国际象棋冠军卡斯帕罗夫,这是计算机首次在象棋比赛中击败人类世界冠军。
  9. 2006年:深度学习的概念被提出,其目标是建立模拟人脑进行分析学习的神经网络。
  10. 2012年:AlexNet在ImageNet挑战赛上取得优胜,其准确率大大超过之前的结果,引发了深度学习的热潮。
  11. 2016年:谷歌的AlphaGo打败围棋世界冠军李世石,这是计算机首次在围棋比赛中击败人类顶尖选手。
2. 机器学习有哪些常见领域?举例说明其应用
  1. 金融领域:例如检测信用卡欺诈、证券市场分析等。
  2. 互联网领域:如自然语言处理、语音识别、语言翻译、搜索引擎、广告推广、邮件的反垃圾过滤系统等。
  3. 医学领域:例如医学诊断等。
  4. 自动化及机器人领域:如无人驾驶、图像处理、信号处理等。
  5. 生物领域:如人体基因序列分析、蛋白质结构预测、DNA序列测序等。
  6. 游戏领域:如游戏战略规划等。
  7. 新闻领域:如新闻推荐系统等。
  8. 刑侦领域:如潜在犯罪预测等。
  9. 工业制造:如质量控制、异常检测等。
  10. 能源管理:如能源需求预测、智能电网优化等。
  11. 智能交通:如交通流量管理、智能交通信号控制等。
  12. 环境监测:如大气污染监测、生态保护等。
3. 举例说明机器学习的基本过程,并简述各步骤操作的方法.
  1. 数据收集:首先需要收集用于训练和验证的数据。这些数据通常来自各种来源,如传感器、数据库、日志文件等。数据收集的过程需要确保数据的准确性和完整性。
  2. 数据预处理:在收集到原始数据后,需要进行预处理,包括数据清洗、缺失值处理、异常值处理、特征工程等。数据预处理的目的是提高数据的质量和可读性,以便于机器学习算法能够更好地进行学习和预测。
  3. 特征工程:特征工程是机器学习过程中的一个关键步骤,它涉及到从原始数据中提取有用的特征,以便更好地描述数据。特征工程的目标是减少特征的维度,同时保留足够的信息来描述数据的内在规律和模式。常用的特征工程技术包括特征选择、特征构造、特征转换等。
  4. 模型选择:在特征工程之后,需要选择适合的机器学习模型来训练数据。模型选择通常基于问题的性质和数据的类型,例如分类问题、回归问题、聚类问题等。常见的机器学习模型包括线性回归、逻辑回归、决策树、随机森林、神经网络等。
  5. 模型训练:在选择好模型后,使用训练数据对模型进行训练,以拟合数据中的模式。在模型训练过程中,通常采用优化算法来调整模型的参数,以最小化预测误差。这一步通常需要大量的计算资源和时间。
  6. 模型评估:在模型训练完成后,需要对模型进行评估,以确定其性能和准确性。评估的方法通常包括交叉验证、测试集评估、性能指标等。通过比较模型的预测结果和实际结果,可以了解模型的优缺点,并根据需要进行调整和优化。
  7. 模型优化:如果模型的性能不满足要求,需要对模型进行优化。优化的方法包括调整模型参数、增加或减少特征、选择更好的算法等。优化目标是为了提高模型的性能和准确性,以便更好地解决实际问题。
4. 简述监督学习和无监督学习的区别和联系,并举例说明

区别:

  1. 训练数据:监督学习的训练数据有标签,即输入数据和输出数据是已知的,如分类问题中的正负样本。而无监督学习的训练数据没有标签,即输入数据没有对应的输出数据,如聚类问题中的不同类别。
  2. 目标函数:监督学习的目标函数通常是损失函数,用于衡量模型预测结果与真实结果之间的差异。常见的损失函数包括平方损失、交叉熵损失等。无监督学习的目标函数通常是聚类函数或相似度函数,用于衡量数据点之间的相似性或关联性。
  3. 学习算法:监督学习通常采用有监督的学习算法,如线性回归、逻辑回归、决策树、神经网络等。这些算法通过训练数据学习输入与输出之间的映射关系。无监督学习通常采用无监督的学习算法,如K-均值聚类、层次聚类、自组织映射等。这些算法通过学习数据的内在结构和模式来进行分类或聚类。

联系:

  1. 监督学习和无监督学习都是机器学习的方法,都可以用来对数据进行分类、聚类、特征提取等操作。
  2. 在某些情况下,监督学习和无监督学习可以相互转化。例如,对于有标签的数据,可以使用无监督学习进行聚类,以探索数据的内在结构和模式;同样,对于无标签的数据,可以使用监督学习进行分类或回归,以发现数据的分类边界或预测未来数据。

举例说明:

假设有一个分类问题,需要对图像进行识别和分类。在监督学习中,我们需要一个标记好的数据集,其中包含了不同类别的图像及其对应的标签。模型通过训练集学习输入图像和输出类别之间的映射关系,使用损失函数来优化模型的参数。常见的应用场景包括图像分类、目标检测等。

无监督学习也可以用于图像处理和分析。例如,可以使用无监督的聚类算法对图像进行聚类,以发现图像中的不同区域或模式。这种聚类方法不需要标签数据,而是通过计算像素点之间的相似性来进行聚类。常见的应用场景包括图像分割、特征提取等。

5. 举例说明监督学习的模型优化的目标,并辨别概念:损失函数, 风险函数,经验风险,结构风险.

监督学习的模型优化目标是通过最小化预测误差来提高模型的准确性和泛化能力。为了实现这一目标,需要选择合适的损失函数来衡量模型的预测结果与真实结果之间的差异。

在监督学习中,损失函数是用于优化模型的关键工具之一,其目标是最小化预测结果与真实结果之间的差异。损失函数的选择取决于问题的性质和数据的类型,例如分类问题、回归问题等。常见的损失函数包括平方损失、交叉熵损失等。

风险函数是损失函数的期望,表示模型在未知数据上的平均误差。在监督学习中,风险函数是模型性能的度量标准,其目标是最小化风险函数以获得更好的泛化能力。

经验风险是指模型在训练数据上的误差,可以通过最小化经验风险来优化模型。经验风险最小化方法包括梯度下降、牛顿法等优化算法。

结构风险是在经验风险的基础上引入了正则化项,以防止模型过拟合。结构风险的目标是最小化经验风险加上正则化项的和。常见的正则化项包括L1正则化、L2正则化等。结构风险最小化方法包括支持向量机、决策树等算法。

6. 什么是正则化?其功能是什么?如何理解L0, L1, L2正则化?

正则化是在机器学习和模型训练中常用的一种技术,主要用于防止模型过拟合,提高模型的泛化能力。通过正则化,可以约束模型参数,使模型更加简单和可解释,同时降低过拟合的风险。

L0、L1和L2正则化是三种常见的正则化方法。

L0正则化的目标是使得模型中非零参数的个数最小,通过这种方式实现模型的稀疏化,即许多参数会变为零,模型更加简洁。

L1正则化(也称为Lasso正则化)是在损失函数中加入参数绝对值的和作为惩罚项,其目标是使得模型参数的绝对值之和最小。L1正则化可以使得模型中的一些参数变为零,从而实现特征选择和模型的稀疏性。

L2正则化(也称为Ridge正则化)是在损失函数中加入参数平方和作为惩罚项,其目标是使得模型参数的平方和最小。L2正则化可以防止模型参数过大,从而避免过拟合,提高模型的泛化能力。

这三种正则化方法各有特点。L0正则化可以产生稀疏解,适用于特征选择和模型剪枝;L1正则化也可以产生稀疏解,适用于特征选择和模型简化;而L2正则化可以使得模型参数更平滑,避免过拟合,提高模型的泛化能力。在实际应用中,可以根据具体问题和数据的特点选择合适的正则化方法。

7. 什么是交义验证?常见的交叉验证方法有哪些?

交叉验证是一种评估机器学习模型性能的常用方法。通过将数据集分成多个部分,并使用其中的一部分数据进行模型训练,然后使用另一部分数据对模型进行测试和验证,可以评估模型的泛化能力和可靠性。

常见的交叉验证方法包括:

  1. K折交叉验证:将数据集分成K份,每次使用其中的K-1份数据进行训练,剩余的一份数据进行测试。重复K次,每次选择不同的数据作为测试数据,可以获得K个不同的测试结果。最后通过对这K个结果的平均或其他方式处理,得到模型的最终性能评估。
  2. 留出交叉验证:将数据集分成训练集和测试集,每次使用训练集进行模型训练,然后使用测试集对模型进行测试。这种方法可以多次重复进行,每次选择不同的数据作为测试数据,以获得更准确的性能评估。
  3. 自助交叉验证:通过随机采样数据集来进行交叉验证,每次使用随机采样的数据集进行训练,然后使用原始数据集的剩余部分进行测试。这种方法可以多次重复进行,每次采样的数据集都不相同,以获得更广泛的性能评估。
  4. 交叉验证集成:将多个模型的预测结果进行综合,以提高模型的泛化能力和可靠性。常见的交叉验证集成方法包括Bagging和Boosting等。
8. 举例解释主成分分析的是基本思想和步骤

主成分分析(Principal Component Analysis,PCA)是一种多变量统计方法,其基本思想是将一组可能存在相关性的变量数据,通过线性变换转换成另一组线性不相关的变量,即主成分。这些主成分能够反映原始变量的主要特征,且数目通常少于原始变量的数目。

以下是主成分分析的基本步骤:

  1. 数据标准化:对原始数据进行标准化处理,即将各变量的均值为0,方差为1,消除量纲和数量级的影响。
  2. 计算相关系数矩阵:根据标准化后的数据,计算各变量之间的相关系数,得到相关系数矩阵。
  3. 特征值分解:对相关系数矩阵进行特征值分解,得到特征值和特征向量。
  4. 确定主成分:选取特征值大于1的主成分。如果特征值小于1,表明该主成分对解释原始数据的变异性贡献较小,可以忽略不计。
  5. 转化数据:将原始数据投影到选定的主成分上,得到各变量的主成分得分。这些得分可以用于进一步的分析或代替原始变量进行其他运算。
9. 什么是过拟合?如何判断过拟合?如何减少过拟合?

过拟合是指模型在训练数据上表现良好,但在新数据上泛化能力较差的现象。这通常是由于模型过于复杂,对训练数据进行了过度拟合,导致对未知数据的预测能力下降。

判断过拟合的方法有:

  1. 观察训练和验证误差:在训练过程中,如果训练误差持续下降,而验证误差开始上升,则可能发生过拟合。
  2. 绘制学习曲线:将训练集和验证集的学习曲线绘制在同一图上,观察曲线是否分离。如果训练误差和验证误差的曲线分离,说明可能发生了过拟合。
  3. 使用交叉验证:通过将数据集分成K折,并分别对每个折进行训练和验证,可以得到K个不同的验证误差。如果K个误差波动较大,说明模型不稳定,可能存在过拟合。
  4. 观察参数和权重:过拟合的模型通常具有大量的参数和权重,可能会导致对训练数据的过度依赖。可以观察模型的参数和权重的大小和变化情况,如果它们过大或波动较大,可能是过拟合的一个指示。
  5. 正则化技术:使用正则化技术(如L1正则化、L2正则化、Dropout等)可以限制模型的复杂度,减少过拟合的风险。

减少过拟合的方法有:

  1. 数据增强:通过对训练数据进行一系列的随机变换和增强操作,可以生成更多多样化的数据样本。这样可以提高模型的泛化能力,减少对特定样本的过度依赖,从而减少过拟合的风险。
  2. 早期停止训练:在训练过程中,监控模型在验证集上的性能指标。当验证集上的性能不再提升时,停止训练过程。通过提前停止,可以避免模型在训练集上过度拟合,同时保留在验证集上较好的泛化能力。
  3. 集成方法:使用多个不同的模型进行集成,可以减少过拟合的风险。通过结合多个模型的预测结果,可以获得更好的泛化能力。常用的集成方法包括Bagging、Boosting等。
  4. 使用更简单的模型:如果一个简单的模型在训练集和验证集上都表现良好,那么使用这个简单模型可能是一个更好的选择。因为复杂的模型更容易过拟合。
  5. 正则化技术:正则化是一种减少模型过拟合的常用方法。常见的正则化方法包括L1正则化、L2正则化、Dropout等。这些方法都可以对模型的复杂度进行限制,从而降低过拟合的风险。
10. 分类解决什么问题,并举例说明.

分类是机器学习中的一种常见任务,主要用于将数据集中的样本分到不同的类别或组中。分类问题在许多领域都有应用,例如自然语言处理、图像识别、推荐系统等。

分类问题的一般目标是根据已知的训练数据集,学习分类的规则或模型,然后对新样本进行分类。具体来说,给定一组输入特征和对应的标签,分类器通过学习特征与标签之间的关系,能够预测新样本的标签。

下面举一个简单的例子来说明分类问题的应用:

假设我们有一个数据集,其中包含了一些病人的医疗记录,包括年龄、性别、血压、血糖等特征。根据这些特征和对应的标签(是否患有高血压),我们可以训练一个分类器来判断一个新的病人是否患有高血压。通过输入新病人的特征数据,分类器可以预测其是否患有高血压,从而为医生提供参考依据。

分类问题在实际应用中具有广泛的应用价值,例如:

  1. 垃圾邮件过滤:通过训练分类器识别垃圾邮件的特征,可以将正常邮件和垃圾邮件进行分类,帮助用户过滤掉垃圾邮件。
  2. 图像识别:在图像分类任务中,给定一组图像和对应的标签,训练分类器能够识别不同类别的图像,例如动物、植物、人脸等。
  3. 推荐系统:通过分析用户的历史行为和偏好,训练分类器可以预测用户对不同物品或服务的喜好程度,从而为用户推荐合适的物品或服务。
  4. 金融风控:在金融领域,分类问题可用于识别欺诈交易、信用评估等任务,帮助金融机构提高风控能力。
  5. 自然语言处理:在文本分类任务中,给定一段文本和对应的标签,训练分类器能够识别文本所属的主题或情感类别,例如新闻分类、情感分析等。
11. 简述决策树的生成过程
  1. 特征选择:选择最优特征进行划分。通常使用信息增益、增益率、基尼指数等参数来评估特征的重要性。
  2. 划分数据集:将数据集划分为多个子集,每个子集对应一个分支节点,其中包含了所有符合该特征的数据。
  3. 递归构建子树:对于每个子集,递归地构建子树。这个过程会一直重复,直到所有的数据都被分类到叶子节点中。
  4. 剪枝(预防过拟合):在决策树生成过程中,为了避免过拟合,需要进行剪枝操作。剪枝可以通过剪去一些分支来简化决策树的结构,提高模型的泛化能力。
12. 聚类分析的目的是什么?

聚类分析的目的是将物理或抽象对象的集合分组为由类似的对象组成的多个类。其目标是在相似的基础上收集数据来分类,使在同一类内的事物具有高度的同质性,而不同类的事物则有高度的异质性。它是一种重要的人类行为,聚类源于很多领域,包括数学、计算机科学、统计学、生物学和经济学。

在市场研究中,聚类分析主要用于对消费者群进行市场细分,对产品进行分类,选择试验市场,确定分层抽样的层次,分析消费者的性格特征和行为形态等方面。

聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。

聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的,对类的数目和类的结构不必做任何假定。聚类分析常常用来探寻“自然的”或“实际的”分类,并且这样的分类应是对所研究的问题有意义的。

13. 讨论聚类与分类的关系

聚类是一种无监督学习方法,它根据数据的相似性将数据样本分组到不同的集群中。聚类的目标是最大化集群内部的相似度,同时最小化集群之间的差异。与分类不同,聚类不需要预先定义类别,而是自动从数据中识别出模式和结构。聚类在探索性数据分析中具有重要应用价值,因为它可以帮助发现数据中的隐藏模式和结构。

分类是一种有监督学习方法,它根据已知类别或标签信息将数据样本分类到不同的类别中。分类的目标是确定数据样本的类别或标签,通常用于数据预测和决策制定。与聚类不同,分类需要事先了解数据的类别信息,并且通常使用训练数据集和相应的标签进行训练。

虽然聚类和分类在某些方面存在差异,但它们之间也存在一定的联系。一些机器学习算法可以同时用于聚类和分类任务,例如k-最近邻(k-NN)算法、支持向量机和决策树等。另外,在某些情况下,聚类可以作为分类的预处理步骤,用于生成潜在的类别或组别,然后在此基础上进行分类。

14. 什么是数据的归一化?为什么对模型的输入数据进行归一化?

数据的归一化是一种简化计算的方式,目的是将有量纲的表达式通过某种算法转换为无量纲的表达式,从而成为纯量。在统计学中,归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在某个区间上是统计的坐标分布。

对模型的输入数据进行归一化的原因主要有以下几点:

  1. 提高训练速度和收敛性:通过归一化,可以将数据限制在一定的范围内,使得模型训练时可以更快地收敛,提高训练速度。
  2. 避免梯度消失或爆炸:在深度学习中,梯度消失或爆炸是一个常见的问题。通过归一化,可以使得梯度在训练过程中保持在一个相对稳定的范围内,有助于避免梯度消失或爆炸的问题。
  3. 提高模型的泛化能力:归一化可以帮助模型更好地泛化到未知数据。通过对数据进行归一化处理,可以使得模型更加关注数据本身的特征,而不是数据的尺度或量纲。
  4. 使得模型更加专注于数据真正的关联性:通过归一化处理,数据的尺度或量纲被消除,模型可以更加专注于数据本身的特征和模式。
15. 作为一种分类算法,支持向量机的基本原理是什么? SVM常用的核函数有哪些?

作为一种分类算法,支持向量机(SVM)的基本原理是基于统计学习理论和结构风险最小化原则,通过找到最优超平面来进行分类。其基本思想是将样本空间映射到高维特征空间,找到一个超平面使得正负样本之间的间隔最大化,从而实现分类。

SVM常用的核函数有以下几种:

  1. 线性核函数:这是SVM中最简单的一种核函数,适用于两类线性可分的数据。其公式如下:K(x, z) = x * z,其中x和z是向量。在线性核函数的情况下,SVM算法实际上是一个线性分类器。
  2. 多项式核函数:通过提高数据的维度,将非线性可分的数据转换为线性可分的数据,提高了SVM的分类能力。多项式核函数公式如下:K(x, z) = (x * z + r) ^ d,其中d表示多项式的阶数,r表示常数项。
  3. 径向基核函数:也被称为RBF核函数,是SVM中应用最广泛的一种核函数。其公式如下:K(x, z) = exp(- ||x - z||^2 / (2 * sigma ^ 2)),其中||x - z||表示向量x和z之间的距离,sigma表示核函数的宽度参数。径向基核函数适用于数据复杂、非线性可分或高维的分类情况,同时对参数的选择比较灵活。
    类算法,支持向量机的基本原理是什么? SVM常用的核函数有哪些?

作为一种分类算法,支持向量机(SVM)的基本原理是基于统计学习理论和结构风险最小化原则,通过找到最优超平面来进行分类。其基本思想是将样本空间映射到高维特征空间,找到一个超平面使得正负样本之间的间隔最大化,从而实现分类。

SVM常用的核函数有以下几种:

  1. 线性核函数:这是SVM中最简单的一种核函数,适用于两类线性可分的数据。其公式如下:K(x, z) = x * z,其中x和z是向量。在线性核函数的情况下,SVM算法实际上是一个线性分类器。
  2. 多项式核函数:通过提高数据的维度,将非线性可分的数据转换为线性可分的数据,提高了SVM的分类能力。多项式核函数公式如下:K(x, z) = (x * z + r) ^ d,其中d表示多项式的阶数,r表示常数项。
  3. 径向基核函数:也被称为RBF核函数,是SVM中应用最广泛的一种核函数。其公式如下:K(x, z) = exp(- ||x - z||^2 / (2 * sigma ^ 2)),其中||x - z||表示向量x和z之间的距离,sigma表示核函数的宽度参数。径向基核函数适用于数据复杂、非线性可分或高维的分类情况,同时对参数的选择比较灵活。
  4. Sigmoid核函数:K(x,z)=tanh(η<x,z>+θ),采用sigmoid核函数,支持向量机实现的就是一种多层神经网络。
  • 21
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值