机器学习_3_机器学习数学基础知识_机器学习数学基础-CSDN博客

本文链接：https://blog.csdn.net/brawly/article/details/126753195

一、偏导数

在这里插入图片描述

在这里插入图片描述

坐标轴下降法(Coordinate Descent， CD)是一种迭代法，通过启发式的方法一步步的迭代求解函数的最小值，和梯度下降法(GD)不同的时候，坐标轴下降法是沿着坐标轴的方向去下降，而不是采用梯度的负方向下降。
坐标轴下降法利用EM算法的思想，在参数更新过程中，每次均先固定m-1个参数值，求解剩下的一个参数的局部最优解；然后进行迭代式的更新操作。
坐标轴下降法的核心思想是多变量函数F(X)可以通过每次沿着一个方向优化来获取最小值；其数学依据是：对于一个可微凸函数f(θ)，其中θ为n*1的向量。如果对于一个解θ=(θ₁,θ₂,…,θ_n)，使得f(θ)在每一个坐标轴θ_i(i=1,2,…,n)上都能达到最小值，则 θ=(θ₁,θ₂,…,θ_n) 就是的f(θ)全局的最小值点。

在这里插入图片描述

在坐标轴下降法中，优化方向从算法的一开始就固定了，即沿着坐标的方向进行变化。在算法中，循环最小化各个坐标方向的目标函数。 即：如果x^k给定，那么x^k+1的第i维度为:

在这里插入图片描述

在这里插入图片描述

坐标轴下降法在每次迭代中，计算当前点处沿一个坐标方向进行一维搜索，固定其它维度的坐标方向，找到一个函数的局部极小值。而梯度下降总是沿着梯度的负方向求函数的局部最小值；
坐标轴下降优化方法是一种非梯度优化算法。在整个过程中依次循环使用不同的坐标方向进行迭代，一个周期的一维搜索迭代过程相当于一个梯度下降的迭代；
梯度下降是利用目标函数的导数来确定搜索方向的，该梯度方向可能不与任何坐标轴平行。而坐标轴下降法是利用当前坐标方向进行搜索，不需要求目标函数的导数，只按照某一坐标方向进行搜索最小值；
两者都是迭代算法，且每一轮迭代都需要**O(mn)**的计算量(m为样本数，n为维度数)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

先验概率： 在事情尚未发生前，对该事件发生概率的估计。利用过去历史资料计算出来得到的先验概率叫做客观先验概率；凭主观经验来判断而得到的先验概率叫做主观先验概率。

后验概率： 通过调查或其它方式获取新的附加信息，利用贝叶斯公式对先验概率进行修正后，而得到的概率。

似然函数： 给定模型参数θ的条件下，样本数据服从这一概率模型的相似程度。

在这里插入图片描述

**先验分布：**反映在进行统计试验之前根据其他有关参数知识得到的分布；也就是说在观测获取样本之前，人们对θ已经有一些知识，此时这个θ的分布函数为H(θ)，θ的密度函数为h(θ)，分别称为先验分布函数和先验密度函数，统称先验分布。

**后验分布：**根据样本X的分布以及θ的先验分布π(θ)，使用概率论中求解条件概率的方式可以计算出来已知X的条件下，θ的条件分布π(θ|x)。因为该分布是在获取样本x之后计算出来的，所以称为后验分布。
后验分布 = 历史数据(先验概率) + 样本(似然函数)

共轭分布：如果先验分布和后验分布具有相同的形式，那么先验分布和似然函数被称为共轭分布。
如：先验分布是一个正太分布，加上似然函数后形成的后验分布也是一个正太分布，那么先验分布和似然函数称为共轭分布。

多项分布(Multinomial Distribution)是二项分布的推广。
多项分布是指单次试验中的随机变量的取值不再是0/1的，而是有多种离散值可能（1,2,3…,k）。比如投掷6个面的骰子实验，N次实验结果服从K=6的多项分布。其中K个离散值的概率为：

在这里插入图片描述

Beta分布是二项分布的共轭分布，是指一组定义在(0,1)区间的连续概率分布，具有两个参数：α,β>0;

在这里插入图片描述

我们认为当Beta分布作为先验分布，二项分布作为条件分布(似然函数)，最终得到的后验分布的分布和Beta分布的分布形式相同。即，Beta分布作为其后验分布的分布形式。
除去系数不看，Beta分布和二项分布具有相同的形式。将Beta分布当做先验分布，将二项分布当做似然函数。