机器学习-数学概览

1.描述说明

2.线性代数

线性代数关注的是这些向量概念之间的相似性。我们可以把它们加起来,然后乘以标量。我们将主要关注中的向量,因为线性代数中的大多数算法都是在中表述的。我们用中的向量来表示数据。在这本书中,我们将关注有限维向量空间,在这种情况下,任何向量和之间都有1:1的对应关系。如果方便的话,我们将利用几何向量的直观表示,并考虑基于数组的算法。数学中的一个主要概念是“封闭性”。相关的问题是:我提出的操作得到的所有的东西组成的集合是什么?在向量的例子中:从一个小的向量集合开始,然后把它们相加,再按比例缩放,得到的向量集合是什么?这将产生一个向量空间(第2.4节)。向量空间的概念及其特性是机器学习的基础。线性代数在机器学习和一般数学中扮演着重要的角色。本章所介绍的概念将在第三章中进一步扩展到几何学相关的概念在第五章,我们将讨论向量微积分,需要一些矩阵运算的知识。我们将使用投影(将在3.8节中介绍)进行主成分分析(PCA)实现降维我们将讨论线性回归,其中线性代数在解决最小二乘问题中扮演核心角色

在这里插入图片描述

3.解析几何

在第二章中,我们在一般但抽象的层次上研究了向量、向量空间和线性映射。在本章中,我们将为所有这些概念添加一些几何解释和直观感觉。特别地,我们会研究几何向量并计算它们的长度和距离或者两个向量之间的夹角。为了能够做到这一点,我们在向量空间中加入了内积这一概念,从而引出向量空间的几何形状。从内积及其相应的范数和度量可以得到相似性和距离的直观概念,支持向量机将使用到这些概念。然后,我们将使用向量之间的长度和角度的概念来讨论正交投影,主成分分析(PCA)以及通过最大似然估计回归时发挥核心作用。

在这里插入图片描述

4.矩阵分解

在第2章和第3章中,我们研究了如何操作和度量向量、向量的投影和线性映射。向量的映射和变换可以描述为由矩阵执行的操作。除此之外,数据通常也以矩阵形式表示,例如,矩阵的行表示不同的人,列描述不同的人的特征,例如体重、身高和社会经济地位。在本章中,我们将介绍矩阵的三个方面:如何概括矩阵如何分解矩阵,以及如何利用矩阵分解用于矩阵近似

我们首先考虑用几个数字来描述矩阵的方法,这些数字代表了矩阵的整体性质。我们将在行列式(第4.1节)特征值(第4.2节)的章节中讨论方阵的这种特殊情况。这些特征性的数代表重要的数学结论,使我们能够迅速了解到矩阵具有哪些有用的性质。然后我们将学习矩阵分解的方法:矩阵分解的一个类比是因数分解(factoring of numbers),例如将21分解成质数7·3。由于这个原因,矩阵分解也经常被称为matrix factorization。矩阵分解以可解释矩阵作为因子,通过不同的表示方式来描述一个矩阵。

我们将首先讨论对称正定矩阵的类平方根运算,即Cholesky分解(第4.3节)。从这里我们将看到两个将矩阵分解成标准形式的相关方法。第一个是所谓的矩阵对角化(第4.4节),它允许我们使用对角变换矩阵来表示线性映射,前提是我们要选择一个合适的基。第二种方法是奇异值分解(第4.5节),将矩阵分解扩展到非方阵矩阵,它被认为是线性代数的基本概念之一。这些分解是很有用的,因为矩阵表示的数字数据通常非常大,很难分析。在本章的结尾,我们系统地概述了矩阵的类型以及划分矩阵类型的特征属性(第4.7节)

(降维或密度估计)中都很重要

在这里插入图片描述

5.向量微积分

机器学习中的许多算法是根据一组期望的模型参数来优化目标函数的(这些参数控制模型对数据的解释程度):找到好的参数可看作一个优化问题(见第8.2节和第8.3节)。例如:

(i)线性回归(见第9章),其中我们研究曲线拟合问题并优化线性权重参数以极大化似然;

(ii)用于降维和数据压缩的神经网络自编码器,其中参数是每层的权重和偏差,我们通过链式法则最小化重建损失;

(iii)高斯混合模型(见第11章)用于数据分布建模,在该模型中,我们优化了每个混合成分的位置和形状参数,以极大化模型的似然。

在这一章中,我们将讨论如何计算函数的梯度,这通常是机器学习模型的学习中必不可少的,因为梯度是朝着陡峭的方向上升的。因此,向量微积分是机器学习中重要的基本数学工具之一。在这本书中,我们假设函数都是可微的。使用一些在这里没有涵盖的附加技术定义,我们所提到的许多方法还可以扩展到次微分(sub-differentials,在某些点连续但不可微的函数)。我们将在第7章中研究函数约束。

在这里插入图片描述

6.概率与分布

概率,宽泛地讲,是对不确定性的研究。概率可以被认为是事件发生次数的分值,或者事件的置信度。我们可以用概率来度量实验中发生某事的概率。如第一章所述,我们经常量化数据中的不确定性,机器学习模型中的不确定性,以及模型产生的预测值中的不确定性。量化不确定性需要随机变量(random variable)的概念,它是一个函数,将随机实验的结果映射到我们感兴趣的一组值。与随机变量相关联的是一个衡量特定结果(或一系列结果)发生概率的函数;这叫做概率分布( probability distribution)。概率分布被用于其他概念,例如概率建模、图模型和模型选择。在下一节中,我们将介绍定义概率空间的三个概念(样本空间、事件和事件概率),以及它们与第四个称为随机变量的概念之间的关系。过于严谨的陈述可能会掩盖概念背后的直观感觉,所以下文的部分内容会故意夸张化

在这里插入图片描述

7.连续优化

由于机器学习算法是在计算机上实现的,其中许多数学方程式都表示为数值优化方法。本章描述了训练机器学习模型的基本数值方法。训练机器学习模型通常归结为找到一组好的参数。“好”的概念是由目标函数或概率模型来决定的,我们将在本书的第二部分看到这些例子。给定一个目标函数,使用优化算法来寻找最佳值。(由于我们是在中考虑数据和模型,所以我们面临的优化问题是连续优化问题,而不是离散变量的组合优化问题。)本章介绍了连续优化的两个主要分支(如图7.1所示):无约束优化和有约束优化。我们将在本章中假设我们的目标函数是可微的(见第5章),因此我们可以在空间中的每个位置获得一个梯度来帮助我们找到最优值。一般情况下,机器学习中的大多数目标函数都是要被最小化的,即最优值就是最小值。直观上,梯度为目标函数每个点的上坡方向,而我们的目的是下坡(与梯度方向相反),希望找到最深的点。

在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值