第1章 机器学习和统计学习

机器学习
• 维基百科:
• 机器学习是近 20 多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近
论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些
让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得
规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统
计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法
设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题

属于无程序可循难度,所以部分的机器学习的相关的研究和开发的难度是近似于算法的

首先在这里给大家推荐一些网络教学的相关的信息

适当参考,本人感觉相关的意义并不大,可以观看我之后的相关的介绍

机器学习
• 维基百科:
• 机器学习有下面几种定义:
• “ 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别
是如何在经验学习中改善具体算法的性能”。
• “ 机器学习是对能通过经验自动改进的计算机算法的研究”。
• “ 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”
• 英文定义: A computer program is said to learn from experience E with respect to
some class of tasks T and performance measure P, if its performance at tasks in T, as
measured by P, improves with experience E.

以下是机器学习的相关的应用方面

对于游戏方向的相关的计算

文本到语音和语音识别

计算机相关的视觉

生物信息

 

财政信息

 

机器控制

 

我们熟悉的深度学习的方向,也是在机器学习的相关的知识领域中进行衍生的

航空航天工业

机器学习的发展历程
• “ 黑暗时代”,人工智能的诞生( 1943 年 ~1956 年)
• Warren McCulloch 和 Walter Pitts 在 1943 年发表了人工智能领域的开篇之作,
提出了人工神经网络模型。
• John von Neumann 。他在 1930 年加入了普林斯顿大学,在数学物理系任教,
和阿兰 · 图灵是同事。
• Marvin Minsky 和 Dean Edmonds 建造第一台神经网络计算机。
• 1956 年: John McCarthy 从普林斯顿大学毕业后去达特茅斯学院工作,说服了
Marvin Minsky 和 Claude Shannon 在达特茅斯学院组织一个暑期研讨会,召集
了对机器智能、人工神经网络和自动理论感兴趣的研究者,参加由 IBM 赞助
的研讨会。

机器学习的发展历程

 、这里是机器学习方面的大佬,值得我们去学习啊

机器学习和数据挖掘的关系
• 机器学习是数据挖掘的重要工具。
• 数据挖掘不仅仅要研究、拓展、应用一些机器学习方法,还要通过许多非机器学
习技术解决数据仓储、大规模数据、数据噪音等等更为实际的问题。
• 机器学习的涉及面更宽,常用在数据挖掘上的方法通常只是“从数据学习”,然
则机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘
关系不大,例如增强学习与自动控制等等。
• 数据挖掘试图从海量数据中找出有用的知识。
• 大体上看,数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界
提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。

所以当我们学好机器学习的基础之后是对我们之后继续去研究相关的机器学习的方面是具有帮助的

在机器学习的基础上,我们可以去进行相关的数据挖掘

这方便我们进一步去学习相关的算法的相关知识

在机器学习的相关的基础上,我们与相关的数据库进行关联,就可以进行相关的数据挖掘

这个图片是十分形象的

为什么要研究大数据机器学习?
• 例“尿布→啤酒”关联规则
• 实际上,在面对少量数据时关联分析并不难,可以直接使用统计学
中有关相关性的知识,这也正是机器学习界没有研究关联分析的一
个重要原因。
• 关联分析的困难其实完全是由海量数据造成的,因为数据量的增加
会直接造成挖掘效率的下降,当数据量增加到一定程度,问题的难
度就会产生质变,
• 例如,在关联分析中必须考虑因数据太大而无法承受多次扫描数据库的开
销、可能产生在存储和计算上都无法接受的大量中间结果等。

当我们的相关的数据样本变得十分大的时候,这个时候凭借我们原本的相关的统计分析这个时候就没有办法进行相关的实现了,这个时候我们就要去使用相关的数据分析和数据挖掘去解决我们所面临的相关的问题

机器学习和统计学习
• 维基百科:
• 机器学习是近 20 多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算
法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算
法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。
因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计
学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题
属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。

 

统计学习和机器学习
• 研究方法差异
• 统计学研究形式化和推导
• 机器学习更容忍一些新方法
• 维度差异
• 统计学强调低维空间问题的统计推导( confidence intervals, hypothesis tests, optimal
estimators )
• 机器学习强调高维预测问题
• 统计学和机器学习各自更关心的领域:
• 统计学 : survival analysis, spatial analysis, multiple testing, minimax theory, deconvolution,
semiparametric inference, bootstrapping, time series

生存分析,空间分析,多重测试,极大极小理论,反卷积, 
半参数推理,自举,时间序列。


• 机器学习 : online learning, semisupervised learning, manifold learning, active learning, boosting.

在线学习、半监督学习、多元学习、主动学习、助推。

这里我们可以了解到对于统计的数据分析更加侧重于形式化和相关的推导

但是对于机器学习而言,这里更加注重,高维度的预测的相关的问题

机器学习是一种人工智能领域的技术,它旨在让计算机通过学习数据和模式,而不是明确地进行编程来完成任务。机器学习分为监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)、半监督学习(Semi-supervised Learning)、强化学习(Reinforcement Learning)四种,下面针对每种学习方式做详细介绍

相关的术语

统计学习的相关的概念

统计学习的对象
• data :计算机及互联网上的各种数字、文字、图像、视频、音频数据以及它
们的组合。
• 数据的基本假设是同类数据具有一定的统计规律性。
• 统计学习的目的
• 用于对数据(特别是未知数据)进行预测和分析。

统计学习研究的相关的方向

1.统计学习方法

2.统计学习的相关的理论(统计学习方法的有效性和效率和基本的理论)

3.统计学习的相关的应用

监督学习

这个地方就是我们要去理解这个在深度学习的相关的概念,训练集和输出集

  对于训练集中,是我在选取相关的大数据进行相应的模块进行训练的,对于我们日常中的相关可能出现的相关的可能,进行采取相关的大数据进行训练,我们在训练模型的过程中,要去确保这个相应的这个数据不要去过于的密集,这样所取的相关的数据是要保证分散性的这样的话就可以去保证我们的数据更加的具有普遍性的

  对于我们的输出集,就是是测试集,这个就是要去放到我们日常的实践中要去使用的,这样的话,我们在测试集中选取的数据也是要随机的,这样的话,我们的测试集和数据集之间并没有说有着特别明显的比较的效果,这个就是要去告诉我们模型中出现的相关的error比例

就是测试集>=训练集

这个就是我们总结出来的相关规律

这个地方我们也要去明白这个所产生相关的规律也不是一定的

定义:根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。

在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。

简单理解:可以把监督学习理解为我们教机器如何做事情

监督学习任务主要包括分类和回归两种类型,在监督学习中,数据集中的样本被称为“训练样本”,并且每个样本都有一个输入特征和相应的标签(分类任务)或目标值(回归任务)。。

  • 分类(Classification): 在分类任务中,目标是将输入数据分到预定义的类别中。每个类别都有一个唯一的标签。算法在训练阶段通过学习数据的特征和标签之间的关系来构建一个模型。然后,在测试阶段,模型用于预测未见过的数据的类别标签。例如,将电子邮件标记为“垃圾邮件”或“非垃圾邮件”,将图像识别为“猫”或“狗”。

  • 回归(Regression): 在回归任务中,目标是预测连续数值的输出。与分类不同,输出标签在回归任务中是连续的。算法在训练阶段通过学习输入特征和相应的连续输出之间的关系来构建模型。在测试阶段,模型用于预测未见过的数据的输出值。例如,预测房屋的售价、预测销售量等。

回归的这个地方主要是我们去进行相关的预测数值,就是把我们未知的数据进行一个相关的判断

监督学习算法种类众多,有着极其广泛的应用,下面是一些常见的监督学习算法:

  • 支持向量机(Support Vector Machine,SVM):SVM是一种用于二分类和多分类任务的强大算法。它通过找到一个最优的超平面来将不同类别的数据分隔开。SVM在高维空间中表现良好,并且可以应用于线性和非线性分类问题。

  • 决策树(Decision Trees):决策树是一种基于树结构的分类和回归算法。它通过在特征上进行递归的二分决策来进行分类或预测。决策树易于理解和解释,并且对于数据的处理具有良好的适应性。

  • 逻辑回归(Logistic Regression):逻辑回归是一种广泛应用于二分类问题的线性模型。尽管名字中带有"回归",但它主要用于分类任务。逻辑回归输出预测的概率,并使用逻辑函数将连续输出映射到[0, 1]的范围内。

  • K近邻算法(K-Nearest Neighbors,KNN):KNN是一种基于实例的学习方法。它根据距离度量来对新样本进行分类或回归预测。KNN使用最接近的K个训练样本的标签来决定新样本的类别。

监督学习的应用场景

监督学习是最常见的机器学习方法之一,在各个领域都有广泛的应用,它的成功在很大程度上得益于其能够从带有标签的数据中学习,并对未见过的数据进行预测和泛化。

  • 图像识别:监督学习在图像识别任务中非常常见。例如,将图像分类为不同的物体、场景或动作,或者进行目标检测,找出图像中特定对象的位置。

  • 自然语言处理:在自然语言处理任务中,监督学习用于文本分类、情感分析、机器翻译、命名实体识别等。

  • 语音识别:监督学习在语音识别领域被广泛应用,例如将语音转换为文本、说话者识别等。

  • 医学诊断:在医学领域,监督学习可以用于疾病诊断、影像分析、药物发现等。

无监督学习

3.1 什么是无监督学习

定义:我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。

在无监督学习中数据只有特征(feature)无标签(label),是一种机器学习的训练方式,它本质上是一个统计手段,在没有标签的数据里可以发现潜在的一些结构的一种训练方式。

简单理解:比起监督学习,无监督学习更像是自学,让机器学会自己做事情。

无监督学习的类别

无监督学习的特点是在训练数据中没有标签或目标值。无监督学习的目标是从数据中发现隐藏的结构和模式,而不是预测特定的标签或目标。无监督学习的主要类别包括以下几种:

  • 聚类(Clustering):聚类是将数据样本分成相似的组别或簇的过程。它通过计算样本之间的相似性度量来将相似的样本聚集在一起。聚类是无监督学习中最常见的任务之一,常用于数据分析、市场细分、图像分割等。

  • 降维(Dimensionality Reduction):降维是将高维数据转换为低维表示的过程,同时尽可能地保留数据的特征。降维技术可以减少数据的复杂性、去除冗余信息,并可用于可视化数据、特征提取等。常见的降维方法有主成分分析(PCA)和t-SNE等。

  • 关联规则挖掘(Association Rule Mining):关联规则挖掘用于发现数据集中项之间的关联和频繁项集。这些规则描述了数据集中不同项之间的关联性,通常在市场篮子分析、购物推荐等方面应用广泛。

  • 异常检测(Anomaly Detection):异常检测用于识别与大多数样本不同的罕见或异常数据点。它在检测异常事件、欺诈检测、故障检测等领域有着重要的应用。

无监督学习在数据挖掘、模式识别、特征学习等领域中发挥着重要作用。通过发现数据中的结构和模式,无监督学习有助于我们更好地理解数据,从中提取有用的信息,并为其他任务提供有益的预处理步骤。

无监督学习在数据挖掘、模式识别、特征学习等应用场景发挥着重要作用。通过无监督学习,我们可以从未标记的数据中获得有用的信息和洞察力,为其他任务提供有益的预处理步骤,并且有助于更好地理解和利用数据。:

  • 聚类与分组:无监督学习中的聚类算法可以帮助将数据样本分成相似的组别或簇,例如在市场细分中将顾客分成不同的群体、在图像分割中将图像区域分割成不同的物体等。

  • 特征学习与降维:无监督学习的降维算法如PCA和t-SNE可以用于特征学习和可视化高维数据,例如在图像、音频和自然语言处理中,以及用于数据压缩和可视化。

  • 异常检测:无监督学习中的异常检测算法可用于发现与大多数数据样本不同的罕见或异常数据点。这在欺诈检测、故障检测和异常事件监测等场景中具有重要应用。

  • 关联规则挖掘:无监督学习的关联规则挖掘算法可用于发现数据集中项之间的关联性,常应用于市场篮子分析、购物推荐等领域。

什么事半监督学习

定义:半监督学习的目标是利用同时包含有标签和无标签的数据来构建一个模型,使得模型能够在测试阶段更好地泛化到新的、未见过的数据。

半监督学习介于监督学习和无监督学习之间。在半监督学习中,训练数据同时包含有标签的数据和无标签的数据。

与监督学习不同的是,半监督学习的训练数据中只有一小部分样本是带有标签的,而大部分样本是没有标签的。通常情况下,获取带有标签的数据可能会比较昂贵或耗费大量的时间,而采集无标签的数据则相对容易和便宜。

在半监督学习中,无标签的数据可以起到两个重要作用:

  • 利用未标记数据的信息:未标记数据可能包含对数据分布、结构和隐含特征的有用信息,这些信息可以帮助模型更好地进行泛化。

  • 利用标记数据的传播效应:通过利用标记数据与无标签数据之间的数据分布相似性,可以通过传播标签信息到无标签样本,进而增强模型的性能。

半监督学习是一个非常有意义且有挑战性的问题,它在现实世界的许多场景中都具有实际应用价值。通过充分利用未标记数据,半监督学习可以在某些情况下显著提高模型的性能,并且有助于在数据有限的情况下构建更加健壮和泛化能力强的机器学习模型。

这个半监督学习的方向上,我们可以明白,分成了监督和无监督之间的关系,这个地方就是表示这个半监督学习的地方更加提高了这个模型的准确性和速度方面的

对于我们这个半监督学习的方向上,我们可以发现这个半监督学习中是有一部分是包含这个标签和不带有标签的,在这个带标签的数据,带标记的数据中的时候,这个地方就是速度会变的比较慢,但是这个不带标签的不带有标记的数据就是会测试的速度特别的快

这个地方是我们的挑战

半监督学习是一个非常有意义且有挑战性的问题,它在现实世界的许多场景中都具有实际应用价值。通过充分利用未标记数据,半监督学习可以在某些情况下显著提高模型的性能,并且有助于在数据有限的情况下构建更加健壮和泛化能力强的机器学习模型。

半监督学习的类别

半监督学习是介于监督学习和无监督学习之间的一种学习方式,它利用同时包含有标签和无标签数据的训练集来构建模型。半监督学习的类别主要分为以下几种:

  • 半监督分类(Semi-supervised Classification):在半监督分类中,训练数据中同时包含带有标签的样本和无标签的样本。模型的目标是利用这些标签信息和无标签数据的分布信息来提高分类性能。半监督分类算法可以在分类任务中利用未标记数据来扩展有标签数据集,从而提高模型的准确性。

  • 半监督回归(Semi-supervised Regression):半监督回归任务与半监督分类类似,但应用于回归问题。模型通过有标签的数据和无标签数据进行训练,以提高对未标记数据的回归预测准确性。

  • 半监督聚类(Semi-supervised Clustering):半监督聚类算法将有标签数据和无标签数据同时用于聚类任务。它们可以通过结合数据的相似性信息和标签信息,来更好地识别潜在的簇结构。

  • 半监督异常检测(Semi-supervised Anomaly Detection):半监督异常检测任务旨在从同时包含正常样本和异常样本的数据中,利用有限的标签信息来检测异常。这在异常样本较少的情况下特别有用。

  • 生成对抗网络(GANs)中的半监督学习:GANs可以被用于实现半监督学习。在这种情况下,生成器和判别器网络可以使用有标签和无标签的样本,以提高生成模型的性能。

半监督学习是一种具有挑战性的学习范式,因为它需要充分利用未标记数据,同时还要防止过度拟合未标记数据。在实际应用中,根据问题的性质和可用的数据,选择适当的半监督学习方法和技术,可以帮助提高模型性能和泛化能力。

什么是强化学习

定义: 强化学习是让一个智能体(agent)在环境中通过尝试和错误来学习行为策略。智能体通过与环境进行交互,根据奖励信号来调整其行为策略,以达到最大化累积奖励的目标。

在强化学习中,智能体不需要明确地告诉如何执行任务,而是通过尝试和错误的方式进行学习。当智能体在环境中采取某个动作时,环境会返回一个奖励信号,表示该动作的好坏程度。智能体的目标是通过与环境交互,学习到一种最优策略,使其在长期累积的奖励最大化。

 

强化学习是一种机器学习方法,根据智能体(agent)与环境的交互来学习适当的行为策略以最大化累积奖励。强化学习的类别主要可以分为以下几种:

  • 基于值的强化学习(Value-Based Reinforcement Learning):基于值的强化学习方法旨在学习价值函数,即给定状态或状态-动作对的值,代表了智能体在该状态或状态-动作对上能够获得的累积奖励的估计值。这些方法通常通过使用贝尔曼方程或其变种来更新价值函数,并使用它来选择动作。

  • 基于策略的强化学习(Policy-Based Reinforcement Learning):基于策略的强化学习方法直接学习策略函数,即将状态映射到动作的映射。策略可以是确定性的(对于每个状态只输出一个动作)或是概率性的(对于每个状态输出动作的概率分布)。这些方法通常通过梯度上升方法来更新策略参数,以最大化累积奖励。

  • 基于模型的强化学习(Model-Based Reinforcement Learning):基于模型的强化学习方法学习环境的模型,即从状态和动作预测下一个状态和奖励。然后,它可以使用学到的模型进行规划和决策,而无需真实地与环境进行交互。这样可以提高样本效率和规划效率。

  • 深度强化学习(Deep Reinforcement Learning):深度强化学习将深度神经网络与强化学习相结合。它通常使用深度神经网络来近似值函数或策略函数。深度强化学习在处理高维状态空间和动作空间的任务时表现出色。

  • 多智能体强化学习(Multi-Agent Reinforcement Learning):多智能体强化学习研究多个智能体在相互作用环境中的学习问题。在这种情况下,每个智能体的策略和动作会影响其他智能体的状态和奖励,因此学习变得更加复杂。

这些是强化学习的主要类别,每个类别中都有许多不同的算法和方法。强化学习在自主决策和学习的问题中具有广泛的应用,例如自动驾驶、机器人控制、游戏玩法等。

5.3 常见的强化学习算法

强化学习算法在处理不同类型的任务和问题时表现出色,并在自主决策和学习的领域中发挥着重要作用。它们通常用于解决自动驾驶、机器人控制、游戏玩法和其他需要决策和学习的任务。以下是一些常见的强化学习算法:

  • Q-Learning:Q-Learning是一种基于值的强化学习算法。它通过学习一个值函数(Q函数)来表示在给定状态下采取某个动作的累积奖励。Q-Learning使用贝尔曼方程更新Q值,并使用贪心策略来选择动作。

  • SARSA:SARSA是另一种基于值的强化学习算法。它与Q-Learning类似,但不同之处在于它在学习和决策阶段都使用当前策略的动作来更新Q值。

  • DQN(Deep Q Network):DQN是一种深度强化学习算法,结合了深度神经网络和Q-Learning。它使用深度神经网络来近似Q函数,通过经验回放和目标网络来稳定训练。

  • A3C(Asynchronous Advantage Actor-Critic):A3C是一种基于策略的强化学习算法,它结合了Actor-Critic方法和异步训练。A3C使用多个智能体并行地训练,以提高样本效率。

  • PPO(Proximal Policy Optimization):PPO是一种基于策略的强化学习算法,它通过限制更新幅度来稳定训练。PPO在深度强化学习中表现出色,并被广泛应用于各种任务。

  • TRPO(Trust Region Policy Optimization):TRPO是另一种基于策略的强化学习算法,它使用限制步长的方法来保证更新策略时不会使性能变差。

5.4 强化学习的应用场景

强化学习在许多实际应用场景中具有广泛的应用,尤其是那些需要自主决策和学习的任务。强化学习能够使智能体从与环境的交互中学习,并根据学到的知识做出适当的决策,以达到预定的目标或最大化累积奖励。由于强化学习的自主学习和决策特性,它在许多自主系统和智能系统中都有重要的应用潜力。以下是一些强化学习的应用场景:

  • 自动驾驶:强化学习可以应用于自动驾驶领域,使车辆能够根据环境和交通状况做出决策,例如规划路径、避免障碍物和遵守交通规则。

  • 机器人控制:强化学习可以帮助机器人在未知环境中进行自主探索和学习,以完成复杂的任务,例如导航、抓取物体和人机交互。

  • 游戏:强化学习在游戏玩法中有广泛的应用。例如,使用强化学习训练智能体来玩电子游戏、围棋、扑克等,使其能够与人类玩家媲美甚至超越。

  • 医疗治疗:强化学习可以在医疗领域中应用于个性化治疗和药物治疗决策,根据患者的情况和病情做出合适的治疗计划。

  • 语音识别和自然语言处理:强化学习可以应用于语音识别和自然语言处理任务,使智能体能够更好地理解和生成自然语言。

统计学习

分为在线学习和批量学习

统计学习
• 按技巧分类:
• 核方法( Kernel method )
• 使用核函数表示和学习非线性模型,将线性模型学习方法扩展到非线性模型的学习
• 不显式地定义输入空间到特征空间的映射,而是直接定义核函数,即映射之后在特征空间
的内积
• 假设 x1 , x2 是输入空间的任意两个实例,内积为 <x1, x2> ,输入空间到特征空间的映射
为 φ ,
核方法在输入空间中定义核函数 K(x1, x2) ,使其满足 K(x1, x2) = < φ(x1), φ(x2)>

概率模型和非概率模型
3.1.1、概率模型(Probabilistic Models)

概率模型是基于概率论的模型,它们在模型的构建和预测过程中显式地使用概率分布。概率模型考虑了数据的不确定性和随机性,通常用于估计事件的概率或计算条件概率。

概率模型的关键特点如下:

  • 不确定性的量化:概率模型通过概率分布来量化不确定性,为每个可能的事件赋予一个概率值。
  • 条件概率:概率模型可以计算给定某些观测条件下其他事件发生的概率,这在处理有依赖关系的数据时非常有用。
  • 贝叶斯推断:概率模型支持贝叶斯推断,这是一种在给定新证据时更新信念(或假设的概率)的方法。
  • 泛化能力:概率模型通常具有良好的泛化能力,因为它们考虑了数据的随机波动。
  • 模型复杂性:概率模型可能会比较复杂,需要估计多个参数,但这也使得它们能够捕捉数据中的复杂结构。

概率模型的例子包括朴素贝叶斯分类器、高斯混合模型、隐马尔可夫模型等。

3.1.2、非概率模型(Non-probabilistic Models)

非概率模型不直接使用概率分布,而是通过确定性的规则或映射关系来进行预测。这类模型通常关注于找到一个从输入到输出的最优映射,而不显式地考虑概率或不确定性。

非概率模型的特点如下:

  • 确定性映射:非概率模型通常寻找一个确定性的函数或规则来描述输入和输出之间的关系。
  • 优化目标:这类模型的目标通常是最小化预测误差或最大化某个性能指标,如准确率、召回率等。
  • 简单性和效率:非概率模型往往更简单、计算效率更高,因为它们不需要估计概率分布或处理不确定性。
  • 缺乏概率解释:非概率模型不提供概率解释,因此它们在处理需要概率解释的问题时可能不如概率模型灵活。
  • 决策边界:非概率模型,特别是基于规则的模型,可能会产生硬决策边界,这可能导致过拟合。

非概率模型的例子包括支持向量机、神经网络等。

3.1.3、确定性模型(Deterministic Models)

确定性模型是指在给定输入的情况下,总是产生相同输出的模型。这类模型不考虑数据的随机性或不确定性,而是假设输入和输出之间存在一个明确的、固定的映射关系。确定性模型的特点是:

  • 输出是唯一的,不随概率变化。
  • 通常用于那些没有内在随机性的问题,或者对随机性不感兴趣的场景。

例如线性回归等。

确定性模型可以被视为非概率模型的一个特例。所有确定性模型都是非概率模型,但非概率模型不全是确定性的。非概率模型可能使用其他方法来处理不确定性,而不依赖概率分布。

3.1.4、概率模型与非概率模型应用场景

概率模型与非概率模型的主要区别在于是否使用概率分布来描述数据和预测。概率模型提供了关于预测不确定性的量化信息,而非概率模型可能不提供这种信息,或者采用其他方式来处理不确定性。

选择使用概率模型还是非概率模型通常取决于问题的性质和需求。如果问题需要考虑数据的随机性或需要概率解释,概率模型可能更合适。如果问题更关注于找到一个最优的预测或决策规则,而不关心概率解释,非概率模型可能更受欢迎。

在实际应用中,有时也会结合概率模型和非概率模型的优点,例如,在非概率模型的基础上引入概率估计,或者将概率模型的输出用于非概率模型的决策过程中。这种混合方法可以提供更灵活和强大的解决方案。

3.2、线性模型和非线性模型

统计学习模型中,特别是非概率模型中,可以分为线性模型(Linear Model)和非线性模型(Non-linear Model)。线性模型是指模型的输出是输入特征的线性组合,非线性模型则与此相反。

3.3、参数化模型和非参数化模型

参数化模型(Parametric Model)是基于一组固定数量的参数来定义的模型,这些参数完全确定了模型的结构和形式,模型可以由有限参数完成表达。参数化模型通常基于某些假设或理论来指定模型的形式,例如正态分布、指数分布等。

非参数化模型(Non-parametric Model)不基于固定数量的参数,可以说模型参数无穷大,而是允许模型结构根据数据的内在特性自由变化,会随着训练数据的增加而不断增大。

核方法(Kernal Method)

核方法是使用核函数来表示和学习非线性模型的一种机器学习方法,它将非线性的复杂数据从原始空间映射到新空间,使得在新空间中原本复杂的关系变得简单,从而可以使用传统的线性方法来处理。也就是说核方法通过一种特殊的变换,将原始数据映射到一个新空间,在这个新空间中,原本线性不可分的数据变得线性可分了。

核函数是机器学习中一种特殊的函数,它能够在不显式地进行高维空间映射的情况下,计算在新的特征空间中点与点之间的相似性。核函数通过将数据映射到更高维的特征空间,核函数使得算法能够找到合适的决策边界,从而提高学习性能。核函数之所以重要,是因为它们使得机器学习算法能够处理那些在原始特征空间中线性不可分的数据。

核函数的一个关键特性是它满足Mercer定理,这意味着它可以生成一个有效的内积,并且可以保证学习算法(如支持向量机)的稳定性和收敛性。常见的核函数包括:

  1. 线性核函数:这是最简单的核函数,它计算两个向量的点积。虽然它看起来很简单,但它实际上只在原始空间中工作,没有映射到更高维的空间;
  2. 多项式核函数:这个核函数可以模拟特征的高阶交互,通过对输入特征的高次幂和交互项进行计算来实现这一点;
  3. 径向基函数(RBF)核:这是一种非常流行的核函数,特别是在支持向量机中。它基于高斯分布,可以测量数据点之间的欧几里得距离。RBF核函数能够处理非线性可分的数据,并且通过调整带宽参数,可以控制函数的平滑程度;
  4. Sigmoid核函数:这个核函数的形式类似于神经网络中的Sigmoid激活函数。它可以用来模拟数据点之间的非线性关系。

核函数之所以重要,是因为它们使得机器学习算法能够处理那些在原始特征空间中线性不可分的数据。通过将数据映射到更高维的特征空间,核函数使得算法能够找到合适的决策边界,从而提高学习性能。此外,核方法的另一个优点是它们具有很好的泛化能力,这意味着它们能够在未见过的数据上表现得也很好。这使得核方法在许多实际应用中非常有用,如图像识别、生物信息学、文本分类等领域。

统计学习三要素
• 算法:
• 如果最优化问题有显式的解析式,算法比较简单
• 但通常解析式不存在,就需要数值计算的方法

相关的模型进行大概的了解就是没有问题的

回归问题
• 回归学习最常用的损失函数是平方损失函数,在此情况下,回归问
题可以由 著名的最小二乘法 (least squares) 求解。
• 股价预测

提供一些相关的图片课件资料

  • 14
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值