基于概率的矩阵分解
论文链接
频率学派: 他们认为世界是确定的, 他们直接为事件本身建模,也就是说事件在多次重复实验中趋于一个稳定的p值,那么这个p值就是该事件的概率. 他们认为模型参数是一个定值,希望通过类似解方程组的方式从数据中求得该未知数.这就是频率学派使用的参数估计方法—极大似然估计.这种方法往往在大数据量的情况下可以很好的还原模型的真实情况.
贝叶斯派:他们认为世界是不确定的,因获取的信息不同而异.假设对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计.对于同一个事件,不同的人掌握先验不同的话,那么他们所认为的事件状态也会不同。
最大后验概率估计(MAP): 是贝叶斯派模型参数估计的常用方法. 顾名思义,就是最大化在给定数据样本的情况下模型参数的后验概率. 依然是根据已知样本,来通过调整模型参数使得模型能够产生该数据样本的概率最大,只不过对于模型参数有了一个先验假设,即模型参数可能满足某种分布,不再一味地依赖数据样例,可避免数据量少或者数据不靠谱的情况).
经验风险最小化和结构风险最小化: 经验风险最小化只侧重于训练数据集上的损失降到最低,而结构风险最小化是在经验风险最小化的基础上约束模型的复杂度,使其在数据集的损失降到最低的同时,模型不至于过于复杂,相当于在损失函数上增加了正则项,防止模型出现过拟合状态. 这一点也符合奥卡姆剃刀原则: 如无必要,勿增实体. 经验风险最小化可以看作是采用了极大似然的参数评估方法,更侧重于从数据中学习模型的潜在参数,而且是只看重数据样本本身.这样在数据样本缺失的情况下,很容易管中窥豹,模型发生过拟合的状态;结构风险最小化采用了最大后验概率估计的思想来推测模型参数,不仅仅是依赖数据,还依赖模型参数的先验假设。这样在数据样本不是很充分的情况下,我们可以通过模型参数的先验假设,辅助以数据样本,做到尽可能还原真实数据模型。
结合PMF的例子可以看出,结构风险最小化是在经验风险最小化的基础上增加了模型参数的先验。
MLE与MAP的联系:
在介绍经验风险与结构风险最小化的时候以具体的逻辑回归(LR)与概率矩阵分解(PMF)模型来介绍MLE和MAP,接下里从宏观的角度,不局限于具体的某个模型来推导MLE与MAP。
假设数据 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn是满足独立同分布(i.i.d.)的一组抽样,接下来就利用两种参数估计方法来求解。
-
MLE对参数 θ \theta θ的估计方法可以如下:
-
MAP对 θ \theta θ的估计方法可以如下推导 :
**-**所以MAP和MLE在优化时的不同就是在于增加了一个先验项 − l o g P ( θ ) -logP(\theta) −logP(θ)。
**-**通过以上的分析可以大致给出他们之间的联系: M A P ( θ ) ≈ M L E ( θ ) + P ( θ ) MAP(\theta)\approx MLE(\theta)+P(\theta) MAP(θ)≈MLE(θ)+P(θ) .
什么是模型参数:进行模型预测时需要模型参数,模型参数值定义模型功能,模型参数可以用数据估计或者数据学习得到,模型参数一般不由实践者手动设置,作为学习模型的一部分保存。通常使用优化算法类估计模型参数,优化算法是对参数的可能值进行的一种有效探索。
模型超参数:是模型外部的模型,其值不能从数据估计中得到。模型超参数常用于估计模型参数的过程中,通常由实践者直接指定,通常可以用启发式方法来设置,根据跟定的预测建模问题而调整。对于给定的问题,我们无法知道模型超参数的最优值,但可以使用经验法则来探寻其最优值,也可以通过反复实验的方法。
定的问题,我们无法知道模型超参数的最优值,但可以使用经验法则来探寻其最优值,也可以通过反复实验的方法。
超参数的例子:训练神经网络中的学习率。