一、【先验概率 f(x)】 -- “由因求果" 中的 "因" 出现的概率。先验概率可理解为统计概率。
没有数据支持下发生x的概率。如:全国姓李的人的概率。是指根据以往经验和分析得到的概率,如全概率公式,它往往作为 "由因求果" 问题中的 "因" 出现的概率。
(2)在贝叶斯统计中,先验概率分布,即关于某个变量 X 的概率分布,是在获得某些信息或者依据前,对 X 之不确定性所进行的猜测。这是对不确定性(而不是随机性)赋予一个量化的数值的表征,这个量化数值可以是一个参数,或者是一个潜在的变量。
(2)先验概率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断。例如, X 可以是投一枚硬币,正面朝上的概率,显然在我们未获得任何其他信息的条件下,我们会认为 P(X)=0.5;再比如上面例子中的,P(G)=0.4。
没有数据支持下发生x的概率。如:全国姓李的人的概率。是指根据以往经验和分析得到的概率,如全概率公式,它往往作为 "由因求果" 问题中的 "因" 出现的概率。
(2)在贝叶斯统计中,先验概率分布,即关于某个变量 X 的概率分布,是在获得某些信息或者依据前,对 X 之不确定性所进行的猜测。这是对不确定性(而不是随机性)赋予一个量化的数值的表征,这个量化数值可以是一个参数,或者是一个潜在的变量。
(2)先验概率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断。例如, X 可以是投一枚硬币,正面朝上的概率,显然在我们未获得任何其他信息的条件下,我们会认为 P(X)=0.5;再比如上面例子中的,P(G)=0.4。
二、【后验概率】 -- 后验概率可理解为条件概率
后验概率f(x|y): 发生y事件情况下发生x的概率,也称条件概率。如住在李家庄的姓李的概率。
后验概率是指在得到 “结果” 的信息后重新修正的概率,是 “执果寻因” 问题中的 "果"。
(1)事情还没有发生,求这件事情发生的可能性的大小,是先验概率。
(2)事情已经发生,求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。
后验概率f(x|y): 发生y事件情况下发生x的概率,也称条件概率。如住在李家庄的姓李的概率。
后验概率是指在得到 “结果” 的信息后重新修正的概率,是 “执果寻因” 问题中的 "果"。
(1)事情还没有发生,求这件事情发生的可能性的大小,是先验概率。
(2)事情已经发生,求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。
后验概率是关于参数 θ 在给定的证据信息 X 下的概率,即 P(θ|X) 。
若对比后验概率和似然函数,似然函数是在给定参数下的证据信息 X 的概率分布,即 P(X|θ) 。
我们用 P(θ) 表示概率分布函数,用 P(X|θ) 表示观测值 X 的似然函数。后验概率定义为 P(θ|X)=P(X|θ)P(θ) / P(X),注意这也是贝叶斯定理所揭示的内容。
若对比后验概率和似然函数,似然函数是在给定参数下的证据信息 X 的概率分布,即 P(X|θ) 。
我们用 P(θ) 表示概率分布函数,用 P(X|θ) 表示观测值 X 的似然函数。后验概率定义为 P(θ|X)=P(X|θ)P(θ) / P(X),注意这也是贝叶斯定理所揭示的内容。
三、【似然函数】
p(x,θ)是一个有着两个变量的函数。
(1)如果,你将参数θ设为常量,则你会得到一个概率函数(关于分布x的函数);
(2)如果,你将观测量x设为常量你将得到似然函数(关于参数θ的函数)。
似然函数和条件概率的函数形式一致,但意义不一样!!!
(1)似然函数是(给定联合样本值x下)关于 (未知) 参数 θ的函数:
所以从定义上,似然函数和密度函数是完全不同的两个数学对象:前者是关于分布x的函数,后者是关于参数θ的函数。
对于结果 x ,在参数集合 θ 上的似然,就是在给定这些参数值的基础上,观察到的结果的概率 L(θ|x)=P(x|θ) 。也就是说,似然是关于参数的函数,在参数给定的条件下,对于观察到的 x 的值的条件分布。
p(x,θ)是一个有着两个变量的函数。
(1)如果,你将参数θ设为常量,则你会得到一个概率函数(关于分布x的函数);
(2)如果,你将观测量x设为常量你将得到似然函数(关于参数θ的函数)。
似然函数和条件概率的函数形式一致,但意义不一样!!!
(1)似然函数是(给定联合样本值x下)关于 (未知) 参数 θ的函数:
所以从定义上,似然函数和密度函数是完全不同的两个数学对象:前者是关于分布x的函数,后者是关于参数θ的函数。
对于结果 x ,在参数集合 θ 上的似然,就是在给定这些参数值的基础上,观察到的结果的概率 L(θ|x)=P(x|θ) 。也就是说,似然是关于参数的函数,在参数给定的条件下,对于观察到的 x 的值的条件分布。
参数的似然定义为在该参数下事件发生的概率。似然值越大,表示在该参数下,事件越有可能发生。似然值越小,在该参数下事件越不可能发生。从这个角度来看,MLE也很好理解了:找到一个参数的估计,使得在该参数估计下,事件发生的可能性最大。
注意,这里用参数的"似然"而不是参数的"概率",如之前所说,参数不是随机变量,不存在概率的说法,用”似然“描述。
注意,这里用参数的"似然"而不是参数的"概率",如之前所说,参数不是随机变量,不存在概率的说法,用”似然“描述。
似然函数和条件概率密度函数是完全不同的两个数学对象:前者是关于参量θ的函数,后者是关于分布X的函数。所以这里的等号= 理解为函数值形式的相等。它们不是同一个函数,但是具有相同的函数形式(类似a^x与x^a的关系).
============
极大似然估计:使得概率密度分布函数最大的那个参数是最佳参数。
极大似然法的思想始于高斯的误差理论,在各种估计方法中较为优良,它属于频率学派的点估计法的一种。
极大似然法的要求分布有参数形式。
极大似然法在数据比较少的时候容易overfit。
============
极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。
极大似然估计:使得概率密度分布函数最大的那个参数是最佳参数。
极大似然法的思想始于高斯的误差理论,在各种估计方法中较为优良,它属于频率学派的点估计法的一种。
极大似然法的要求分布有参数形式。
极大似然法在数据比较少的时候容易overfit。
============
极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。
(1)频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示:
θ MLE =argmax f(θ |x) // x为分布的观测值,θ为待估计的参数
(2)贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入分布的观测值x后,我们不能用一个确定的y表示输出结果,必须用一个概率的方式表达出来,所以贝叶斯学派的预测值是一个期望值。
最大后验概率和极大似然估计很像,只是多了一项先验分布,它体现了贝叶斯认为参数也是随机变量的观点,在实际运算中通常通过超参数给出先验分布。
f(θ |x) = f(x|θ) f(θ)/f(x)
一方面,极大似然估计和最大后验概率都是参数的点估计。在频率学派中,参数固定了,预测值也就固定了。最大后验概率是贝叶斯学派的一种近似手段,因为完全贝叶斯估计不一定可行。
另一方面,最大后验概率可以看作是对先验和MLE的一种折衷,如果数据量足够大,最大后验概率和最大似然估计趋向于一致,如果数据为0,最大后验仅由先验决定。
θ MLE =argmax f(θ |x) // x为分布的观测值,θ为待估计的参数
(2)贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入分布的观测值x后,我们不能用一个确定的y表示输出结果,必须用一个概率的方式表达出来,所以贝叶斯学派的预测值是一个期望值。
最大后验概率和极大似然估计很像,只是多了一项先验分布,它体现了贝叶斯认为参数也是随机变量的观点,在实际运算中通常通过超参数给出先验分布。
f(θ |x) = f(x|θ) f(θ)/f(x)
一方面,极大似然估计和最大后验概率都是参数的点估计。在频率学派中,参数固定了,预测值也就固定了。最大后验概率是贝叶斯学派的一种近似手段,因为完全贝叶斯估计不一定可行。
另一方面,最大后验概率可以看作是对先验和MLE的一种折衷,如果数据量足够大,最大后验概率和最大似然估计趋向于一致,如果数据为0,最大后验仅由先验决定。