最小二乘法
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。最小二乘法是用来做函数拟合或者求函数极值的方法。
当做函数拟合时,比如给定一系列观测值Xi和f(Xi),求函数 f(x)=ax+b 的参数a,b。
总误差平方:
对a,b求导,求解下式可得到总误差 的最值。
代入Xi, f(Xi)的值,解上述线性方程组,可以得到参数a,b的值。
参考:如何理解最小二乘法?
最大似然估计
最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
输入含两个: x表示某一个具体的数据;θ 表示模型的参数
如果θ是已知的,x是变量,这个函数叫做概率函数(probability function),它描述了对于不同的样本点x,其出现的概率是是多少
如果x是已知的,θ 是变量,这个函数叫做似然函数(likelihood function),它描述对于不同的模型参数,出现x这个样本点的概率是多少。
最大似然估计就是在模型参数可变的情况下,找到使出现样本点x的概率最大的模型参数值。
求解最大似然函数的一般步骤:
(1)写出似然函数;
(2)对似然函数取对数,并整理;
(3)求导数,令导数为0,得到似然方程;
(4)解似然方程,得到的参数即为所求;
参考:一文搞懂极大似然估计
EM算法
EM算法是一种迭代算法,主要用于计算后验分布的众数或极大似然估计,广泛地应用于缺损数据、截尾数据、成群数据、带有讨厌参数的数据等所谓不完全数据的统计推断问题。
优点:EM算法简单且稳定,迭代能保证观察数据对数后验似然是单调不减的。
缺点:对于大规模数据和多维高斯分布,其总的迭代过程,计算量大,迭代速度易受影响;EM算法的收敛速度,非常依赖初始值的设置,设置不当,计算时的代价是相当大的;EM算法中的M-Step依然是采用求导函数的方法,所以它找到的是极值点,即局部最优解,而不一定是全局最优解。
参考:EM算法 实例讲解,如何感性地理解EM算法?,EM算法(Expectation Maximization Algorithm)
凸优化问题
任意取集合中的两个点并连线,如果连线段被完全包含在此集合中,那么这个集合就是凸集。
凸优化问题有一个很重要的定理:任何局部最优解即为全局最优解。相比非凸优化问题,凸优化问题求解较为简单。但是现实生活中几乎所有问题的本质都是非凸的。为什么凸优化这么重要呢?科学的本质是由简到难,先把简单问题研究透彻,然后把复杂问题简化为求解一个个简单的问题。
凸优化:凸优化是指一种比较特殊的优化,是指求取最小值的目标函数为凸函数的一类优化问题。其中,目标函数为凸函数且定义域为凸集的优化问题称为无约束凸优化问题。而目标函数和不等式约束函数均为凸函数,等式约束函数为仿射函数,并且定义域为凸集的优化问题为约束优化问题。
凸优化性质:
- 目的是求取目标函数的最小(优)值;
- 目标函数和不等式约束函数都是凸函数,定义域是凸集;
- 若存在等式约束函数,则等式约束函数为仿射函数;
- 对于凸优化问题具有良好的性质,局部最优解便是全局最优解。
一个凸优化问题用公式描述为如下,其目标函数f(x)以及不等式约束条件g(x)便是凸函数,而等式约束条件h(x)是仿射函数