####1.1
统计学习方法的三要素是模型、策略、算法。
伯努利模型是定义在取值为0与1的随机变量上的概率分布。
统计学分为两派:经典统计学派和贝叶斯统计学派。两者的不同主要是,经典统计学派认为模型已定,参数未知,参数是固定的,只是还不知道;贝叶斯统计学派是通过观察到的现象对概率分布中的主观认定不断进行修正。
极大似然估计和贝叶斯估计的模型都是伯努利模型也就是条件概率模型;极大似然估计用的是经典统计学派的策略,贝叶斯估计用的是贝叶斯统计学派的策略;为了得到使经验风险最小的参数值,使用的算法都是对经验风险求导,使导数为0.
定义随机变量A为一次伯努利试验的结果,A的取值为 { 0 , 1 } \{0,1\} {
0,1},概率分布为 P ( A ) P(A) P(A):
P ( A = 1 ) = θ P ( A = 0 ) = 1 − θ P(A=1)=\theta \\ P(A=0)=1-\theta P(A=1)=θP(A=0)=1−θ
下面分布用极大似然估计和贝叶斯估计来估计 θ \theta θ 的值。
极大似然估计:
L ( θ ) = ∏ i = 1 n P ( A i ) = θ k ( 1 − θ ) n − k L(\theta)=\prod_{i=1}^{n}P(A_i)=\theta^k(1-\theta)^{n-k} L(θ)=i=1∏nP(Ai)=θk(1−θ)n−k
A i A_i Ai代表第i次随机试验。
θ = a r g max θ L ( θ ) = k n \theta=arg\max \limits_\theta L(\theta)=\frac{k}{n} θ=argθmaxL(θ)=nk
贝叶斯估计:
P ( θ ∣ A 1 , A 2 , . . . , A n ) = P ( A 1 , A 2 , . . . A n ∣ θ ) π ( θ ) P ( A 1 , A 2 , . . . , A n ) P(\theta|A_1,A_2,...,A_n)=\frac{P(A_1,A_2,...A_n|\theta)\pi(\theta)}{P(A_1,A_2,...,A_n)} P(θ∣A1,A2,...,An)=P(A1,A2,...,An)P(A1,A2,...An∣θ)π(θ)
根据观察到的结果修正 θ \theta θ,也就是假设 θ \theta θ是随机变量, θ \theta θ服从 β \beta β分布,有很多个可能的取值,我们要取的值时在已知观察结果的条件下使 θ \theta θ出现概率最大的值。上式分母是不变的,求分子最大就可以。
θ = a r g max θ P ( A 1 , A 2 , . . . A n ∣ θ ) P ( θ ) = a r g max θ ∏ i = 1 n P ( A i ∣ θ ) P ( θ ) = a r g max θ θ k ( 1 − θ ) n − k θ a − 1 ( 1 − θ ) b − 1 = k + ( a − 1 ) n + ( a − 1 ) + ( b − 1 ) \begin{align*} \theta &=arg\max \limits_\theta {P(A_1,A_2,...A_n|\theta) P(\theta)} \\ &= arg\max \limits_\theta {\prod_{i=1}^{n}P(A_i|\theta)P(\theta)} \\ &=arg \max \limits_\theta {\theta^k(1-\theta)^{n-k}\theta^{a-1}(1-\theta)^{b-1}} \\ &=\frac{k+(a-1)}{n+(a-1)+(b-1)} \end{align*}