机器学习中的数学

机器学习中的数学

机器学习是一个综合性强、知识栈长的学科,需要大量的前序知识作为铺垫。其中最核心的就是:绝大多数算法模型和实际应用都依赖于以概率统计、线性代数和微积分为代表的数学理论和思想方法。

概率统计

概率统计是利用数据发现规律、推测未知的思想方法。这和机器学习的目标高度一致,机器学习中的思想方法和核心算法大多构筑在统计思维方法之上。本专栏介绍的核心概率思想和基础概念将围绕着条件概率、随机变量、随机过程、极限思想、统计推断、概率图等内容展开。

第 1 部分:概率思想。

我们首先从条件概率和贝叶斯方法入手,阐明条件、独立、相关等基本概念,掌握联合、边缘的计算方法,我们将一起构建起认知世界的概率思维体系。

第 2 部分:随机变量。

我们将重点介绍随机变量主干内容,从单一随机变量的分布过渡到多元随机变量的分析,最后重点阐述大数定理和中心极限定理,并初步接触蒙特卡洛方法,和读者一起建立重要的极限思维。

第 3 部分:统计推断。

这部分我们关注的是如何通过部分的样本集合推断出我们关心的总体特征,这在现实世界中非常重要。在参数估计的思想方法基础上,我们重点关注极大似然估计和贝叶斯估计这两种方法。

第 4 部分:随机过程。

我们将关注由一组随机变量构成的集合,即随机过程。股票的波动、语音信号、视频信号、布朗运动等都是随机过程在现实世界中的实例。我们在随机过程的基本概念之上,将重点分析马尔科夫链,梳理其由静到动的演变,探索变化的过程和不变的稳态。

第 5 部分:采样理论。

我们将重点关注如何获取服从目标分布的近似采样方法,从基本的接受-拒绝采样入手,逐渐深入到马尔科夫链-蒙特卡洛方法,通过动态的过程进一步深化对随机过程、随机理论以及极限思想的理解。

第 6 部分:概率模型。

这里我们将介绍概率图模型中的一种典型模型:隐马尔科夫模型,熟悉状态序列的概率估计和状态解码的基本方法,为后续学习的概率图模型打好基础。
在这里插入图片描述

线性代数

作为利用空间来投射和表征数据的基本工具,线性代数可以灵活地对数据进行各种变换,从而让研究人员更为直观、清晰地探查到数据的主要特征和不同维度所需的信息。因此,线性代数的核心地位不言而喻,只有熟练运用好这个工具,才能搭建起攀登机器学习的牢固阶梯。

机器学习和数据分析中究竟会有哪些地方需要用到线性代数?

  • 量化描述日常生活中的事物,比如个体的不同属性、自然语言中的词语、句子等等,用于支撑我们所要进行的算法分析
  • 将待处理的数据在不同维度的空间中进行变换处理,以找到最佳的观测角度,使得数据处理达到最好效果
  • 从采样的海量数据中提取出主要特征成分,梳理出数据的主要脉络,从而指导你对一个文本进行主题建模,帮助你利用协同过滤技术成功给用户推荐最喜爱的菜肴
  • 用数字表示图像,并且在不太影响观察效果的前提下,利用很小的存储空间近似达到原有图像的视觉效果
  • 对采集到的观测数据进行拟合,帮助我们找到其中暗含的规律,指导对未知数据的预测
  • 在实际的数据采样分析过程中,在无法找到精确解的情况下,探索到最接近真相的近似解

第 1 部分:构筑空间。

这一部分我们将从空间坐标表示与线性变换入手,快速建立线性代数的直观感受,理解向量和矩阵运算的几何意义。同时探索空间——这个线性代数的概念基石,理解空间中的映射和变换的本质,深入学习矩阵在其中的灵魂作用。

第 2 部分:空间投影。

这一部分我们将从空间投影的现象入手,将理论和工程进行紧密结合,掌握线性代数在近似与拟合中的理论基础,学习最小二乘法的原理与实际应用,并实践线性拟合、无解方程组的近似解问题。

第 3 部分:矩阵特征。

这一部分是矩阵分析的核心重点,我们需要深刻领会矩阵相似性的几何意义以及特征值、特征向量的提取方法,用以打好数据降维的理论基础。

第 4 部分:数据降维。

这一部分是整个线性代数知识脉络的交汇点,可以说是矩阵分析中最为精彩的地方。利用前面打下的概念基础,我们将深入地学习特征值分解和奇异值分解的方法,并利用这些工具进行数据的压缩和降维,实现对样本数据的主成分分析。

在这里插入图片描述

微积分与最优化

微积分与最优化,是机器学习模型中问题最终解决方案的落地手段。当我们分析具体问题,并建立好算法模型后,问题的最终求解过程往往都会涉及到优化问题,因此我们需要去探寻数据空间中的极值。这一切如果没有微分理论和计算方法作为支撑,任何漂亮的模型都无法落地。因此夯实多元微分的基本概念,掌握最优化的实现方法,是通往问题最终解决方案的必经之路。

在机器学习的实践中,对于一个函数,尤其是多元函数而言,读者需要面对许多非常重要的概念和方法问题:

  • 我们常说的导数和微分的背后的几何含义是什么?我们常常听说的链式法则又是如何运转的?
  • 对于一个连续的函数,我们是如何基于不同阶数的导数,在指定点处,利用有限的级数项之和对函数进行近似?
  • 多元函数中的梯度指示出了怎样的重要信息?我们如何利用它去寻找函数的极值?
  • 利用程序进行函数极值求解时,如何利用不断迭代的方法在连续的函数中实现我们的目标?
  • 梯度法、最速下降法、牛顿法,这些极值求解的具体方法是如何实现的?各有什么优点和不足?

这些微积分中的重要问题和概念,是理解和实现优化方法的重中之重。

第 1 部分:微分基础

这一部分从一元函数的导数和微分入手,快速理清连续与可微、切线与导数等重要概念,巩固核心基础,同时从切线的几何意义出发顺势引出微分的数值求法。在此基础上进一步讨论一元函数的泰勒近似,引导读者利用高阶导数基于有限的级数项,在指定点对函数进行近似处理。

第 2 部分:多元分析

这一部分由一元过渡到多元函数,导数与微分的概念得以进一步完善和深化,引出多元函数的极限、连续以及偏导数,并在多元微分的几何意义的基础上,讨论了多元函数的泰勒近似。同时从偏导数的几何意义出发,引出这一部分最为重要的概念:多元函数的梯度向量和黑塞矩阵,探究梯度与函数值变化的重要关系,为后面的优化方法打好基础。

第 3 部分:优化基础

这一部分讨论了最优化的概念基础,首先我们分析最优化问题的由来和背景,然后重点讨论函数极值存在的条件以及探索函数极值过程中常用的迭代法。

第 4 部分:多元极值

这一部分面向几个典型的实际算法,分别举了多元函数极值求取的一阶方法和二阶方法的典型例子,对许多材料中耳熟能详、反复出现的梯度法、最速下降法以及牛顿法都进行了深入的介绍和完整的实现。同时综合整个四部分内容,整合微分与优化的完整知识闭环。
在这里插入图片描述

参考资料

机器学习中的数学-张雨萌

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值