关于参数估计的一些总结:
先验概率
预先对模型参数的一些了解,对应的是似然函数,不是概率密度函数,都可以统一用beta分布来表示,其中有两个超参数alpha和beta,调节这两个超参数可以改变先验概率密度的参数,根据边界似然函数来决定的,对应边界似然函数最大的alpha和beta即是需要选择;另外beta分布有一个特性,就是先验和后验共轭;
似然函数
找一个概率分布函数或者概率函数(有参估计方法),通俗理解就是使得这些数据(能得到的数据),出现的概率最大。举例:假设有三组参数,W1、W2、W3,对应三个概率密度函数:f1,f2,f3,可以用密度分布函数算出数据集发生的联合概率大小p1、p2、p3,其中概率最大的p对应的参数就是我们想选择的概率分布函数,这三个不一定是最准确的,实际情况通常需要计算出最优的W参数,使得数据集发生的联合概率达到最大值。
后验概率
基于先验概率分布和似然函数计算后验概率分布,再使用后验概率分布来预测未知数据(后验概率是已知结果发生,去反推原因的概率,在机器学习中可对应,已知数据发生,去反推其参数的大小)
-
最大似然估计:参数固定
-
最大后验概率方法:参数固定,加入先验概率,先验概率是beta分布
-
贝叶斯方法:参数不固定,参数也服从某种概率分布,作为随机变量,得到后验分布后,在用后验分布去推断新的数据,最后的结果是一个期望值。例如估计一个高斯分布1的均值,可能也服从另外一个高斯分布2,然后就根据这个高斯分布2对最终的高斯分布1做出判断或者别的操作。
贝叶斯推断:
这里用参数作为桥梁连接xn+1和X,积分项的第一项应该为 p ( x n + 1 ∣ θ , X ) p(x_{n+1}|\theta,X) p(xn+1∣θ,X),因为无需经过X再训练 θ {\theta} θ,也就是是说这里的 θ \theta θ是经过调整后的后验分布,所以去掉数据X这一项
在预估新数据 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9OBHXWp6-1608020490951)(https://www.zhihu.com/equation?tex=x_{n%2B1})] 的分布时, 贝叶斯推断把参数的所有可能性都考虑进去, 包括确定性较高的取值和确定性较低的取值, 充分地利用了所有参数的信息. 由(13)我们也可以发现, 贝叶斯推断时因为考虑所有参数分布的信息, 致使计算量相比最大似然估计这种点估计方式会增大很多, 在实际生产中难以应用. 例如, 当使用神经网络作为预估模型时, 贝叶斯推断在参数上进行积分意味着参数每变化一次, 神经网络便要做一次前向传播计算, 而这个代价非常地高. 所以我们退而求其次, 只使用后验概率最大的参数作为参数的点估计这样既能将对参数的先验信息代入到模型的推断中, 又能节省计算资源。最大化后验概率:
息代入到模型的推断中, 又能节省计算资源。最大化后验概率: