机器学习_3_机器学习数学基础知识

一、偏导数

在这里插入图片描述

二、目标函数(损失函数)求解方法

2.1 梯度下降法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

2.2 坐标轴下降法

  • 坐标轴下降法(Coordinate Descent, CD)是一种迭代法,通过启发式的方法一步步的迭代求解函数的最小值,和梯度下降法(GD)不同的时候,坐标轴下降法是沿着坐标轴的方向去下降,而不是采用梯度的负方向下降。

  • 坐标轴下降法利用EM算法的思想,在参数更新过程中,每次均先固定m-1个参数值,求解剩下的一个参数的局部最优解;然后进行迭代式的更新操作。

  • 坐标轴下降法的核心思想是多变量函数F(X)可以通过每次沿着一个方向优化来获取最小值;其数学依据是:对于一个可微凸函数f(θ),其中θ为n*1的向量。如果对于一个解θ=(θ12,…,θn),使得f(θ)在每一个坐标轴θi(i=1,2,…,n)上都能达到最小值,则 θ=(θ12,…,θn) 就是的f(θ)全局的最小值点。

在这里插入图片描述

2.2.1 坐标轴下降法算法公式

  • 在坐标轴下降法中,优化方向从算法的一开始就固定了,即沿着坐标的方向进行变化。在算法中,循环最小化各个坐标方向的目标函数。 即:如果xk给定,那么xk+1的第i维度为:

在这里插入图片描述

  • 因此,从一个初始的x0求得函数F(x)的局部最优解,可以迭代获取x0、x1、x2… 的序列,从而可以得到:

在这里插入图片描述

2.2.2 坐标轴下降法算法过程

  1. 给θ向量随机选取一个初值,记做θ0
  2. 对于第k轮的迭代,从θ1k开始计算,θnk到为止,计算公式如下:
    在这里插入图片描述
  • 检查θk和θk-1向量在各个维度上的变化情况,如果所有维度的变化情况都比较小的话,那么认为结束迭代,否则继续k+1轮的迭代。
  • 在求解每个参数局部最优解的时候可以用求导的方式来求解。

2.3 坐标轴下降法和梯度下降法的区别

  • 坐标轴下降法在每次迭代中,计算当前点处沿一个坐标方向进行一维搜索 ,固定其它维度的坐标方向,找到一个函数的局部极小值。而梯度下降总是沿着梯度的负方向求函数的局部最小值;

  • 坐标轴下降优化方法是一种非梯度优化算法。在整个过程中依次循环使用不同的坐标方向进行迭代,一个周期的一维搜索迭代过程相当于一个梯度下降的迭代;

  • 梯度下降是利用目标函数的导数来确定搜索方向的,该梯度方向可能不与任何坐标轴平行。而坐标轴下降法是利用当前坐标方向进行搜索,不需要求目标函数的导数,只按照某一坐标方向进行搜索最小值;

  • 两者都是迭代算法,且每一轮迭代都需要**O(mn)**的计算量(m为样本数,n为维度数)

三、概率

在这里插入图片描述
在这里插入图片描述

3.1 大数定律、中心极限定理

在这里插入图片描述

3.2 最大似然函数

在这里插入图片描述

3.3 概率知识

先验概率: 在事情尚未发生前,对该事件发生概率的估计。利用过去历史资料计算出来得到的先验概率叫做客观先验概率;凭主观经验来判断而得到的先验概率叫做主观先验概率。

后验概率: 通过调查或其它方式获取新的附加信息,利用贝叶斯公式对先验概率进行修正后,而得到的概率。

似然函数: 给定模型参数θ的条件下,样本数据服从这一概率模型的相似程度。

在这里插入图片描述

**先验分布:**反映在进行统计试验之前根据其他有关参数知识得到的分布;也就是说在观测获取样本之前,人们对θ已经有一些知识,此时这个θ的分布函数为H(θ),θ的密度函数为h(θ),分别称为先验分布函数和先验密度函数,统称先验分布。

**后验分布:**根据样本X的分布以及θ的先验分布π(θ),使用概率论中求解条件概率的方式可以计算出来已知X的条件下,θ的条件分布π(θ|x)。因为该分布是在获取样本x之后计算出来的,所以称为后验分布。
后验分布 = 历史数据(先验概率) + 样本(似然函数)

共轭分布:如果先验分布和后验分布具有相同的形式,那么先验分布和似然函数被称为共轭分布。
如:先验分布是一个正太分布,加上
似然函数
后形成的后验分布也是一个正太分布,那么先验分布似然函数称为共轭分布

3.3.1 二项分布

  • 二项分布是从伯努利分布推导过来的。伯努利分布,又称两点分布或0-1分布,是一个离散型的随机分布,其中的随机变量只有两类取值,非正即负{+,-}。
  • 而二项分布即重复n次的伯努利试验,记为 X ~ b(n,p);
  • 简言之,只做一次实验,是伯努利分布,重复做了n次,是二项分布。
    在这里插入图片描述

3.3.2 多项分布

  • 多项分布(Multinomial Distribution)是二项分布的推广。

  • 多项分布是指单次试验中的随机变量的取值不再是0/1的,而是有多种离散值可能(1,2,3…,k)。比如投掷6个面的骰子实验,N次实验结果服从K=6的多项分布。其中K个离散值的概率为:

在这里插入图片描述

3.3.3 Beta分布

Beta分布是二项分布的共轭分布,是指一组定义在(0,1)区间的连续概率分布,具有两个参数:α,β>0;

在这里插入图片描述

3.3.4 Beta分布和二项分布

  • 我们认为当Beta分布作为先验分布二项分布作为条件分布(似然函数),最终得到的后验分布的分布和Beta分布的分布形式相同。即,Beta分布作为其后验分布的分布形式。

  • 除去系数不看,Beta分布二项分布具有相同的形式。将Beta分布当做先验分布,将二项分布当做似然函数。

在这里插入图片描述

3.3.5 Dirichlet分布

Dirichlet分布是由Beta分布推广而来的,是多项式分布的共轭分布。

在这里插入图片描述

四、线性代数

4.1 QR分解、SVD分解

在这里插入图片描述

4.2 向量的导数

在这里插入图片描述
在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

少云清

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值