统计学习方法第一章

统计学习方法第一章

1.1

统计学习方法三要数:模型,策略,算法。
模型:伯努利模型,即定义在取值为0与1的随机变量上的概率分布。
策略:极大似然估计和贝叶斯估计的策略都是对数损失函数,只不过贝叶斯估计使用的是结构风险最小化。
算法:极大似然估计使用的算法是求取经验函数风险函数的最小值,贝叶斯估计所使用的算法是求取参数的后验分布,然后计算其期望。
定义B为取值为0或1的随机变量,并设B=1的概率是θ,即:
P ( B = 1 ) = θ , P ( B = 0 ) = 1 − θ P(B=1)=\theta,P(B=0)=1-\theta P(B=1)=θ,P(B=0)=1θ
抽取n个独立同分布的随机变量 B 1 , B 2 , B 3 . . . B n B_1,B_2,B_3...B_n B1,B2,B3...Bn。使用极大似然估计求经验风险函数的极值点。
L ( θ ) = ∏ i = 1 n P ( B i ) = θ k ( 1 − θ ) L(\theta ) = \prod\limits_{i = 1}^n {P({B_i}) = {\theta ^k}(1 - \theta )} L(θ)=i=1nP(Bi)=θk(1θ)
求对数: log ⁡ ( L ( θ ) ) = log ⁡ ( ∏ i = 1 n P ( B i ) ) = log ⁡ ( θ k ( 1 − θ ) n − k ) = k log ⁡ ( θ ) + ( n − k ) log ⁡ ( 1 − θ ) \begin{array}{cccc} \log (L(\theta )) &=& \log (\prod\limits_{i = 1}^n {P({B_i}))} \\ &=& \log ({\theta ^k}{(1 - \theta )^{n - k}})\\ &=& k\log (\theta ) + (n - k)\log (1 - \theta ) \end{array} log(L(θ))===log(i=1nP(Bi))log(θk(1θ)nk)klog(θ)+(nk)log(1θ)
令对数似然函数的导数为0: ∂ log ⁡ ( L ( θ ) ) ∂ θ = k θ − n − k 1 − θ = 0 \frac{{\partial \log (L(\theta ))}}{{\partial \theta }} = \frac{k}{\theta } - \frac{{n - k}}{{1 - \theta }} = 0 θlog(L(θ))=θk1θnk=0
解之得: θ = k n \theta=\frac{k}{n} θ=nk
贝叶斯估计: P ( θ ∣ B 1 , B 2 , B 3 , . . . B n ) = P ( B 1 , B 2 , B 3 , . . . B n ∣ θ ) P ( θ ) P ( B 1 , B 2 , B 3 , . . . B n ) P(\theta |{B_1},{B_2},{B_3},...{B_n}) = \frac{{P({B_1},{B_2},{B_3},...{B_n}|\theta )P(\theta )}}{{P({B_1},{B_2},{B_3},...{B_n})}} P(θB1,B2,B3,...Bn)=P(B1,B2,B3,...Bn)P(B1,B2,B3,...Bnθ)P(θ)
根据观察到的结果修正θ,也就是假设θ是随机变量,θ服从β分布,有很多个可能的取值,我们要取的值时在已知观察结果的条件下使θ出现概率最大的值。上式分母是不变的,求分子最大就可以。 θ = arg ⁡ max ⁡ θ P ( B 1 , B 2 , B 3 , . . . B n ∣ θ ) P ( θ ) = arg ⁡ max ⁡ θ ∏ i = 1 n P ( B i ∣ θ ) P ( θ ) = arg ⁡ max ⁡ θ θ k ( 1 − θ ) n − k θ a − 1 ( 1 − θ ) b − 1 = k + ( a − 1 ) n + ( a − 1 ) + ( b − 1 ) \begin{array}{ccccc} \theta & = & \mathop {\arg \max }\limits_\theta P({B_1},{B_2},{B_3},...{B_n}|\theta )P(\theta )\\ & = & \mathop {\arg \max }\limits_\theta \prod\limits_{i = 1}^n {P({B_i}|\theta )P(\theta )} \\ & = & \mathop {\arg \max }\limits_\theta {\theta ^k}{(1 - \theta )^{n - k}}{\theta ^{a - 1}}{(1 - \theta )^{b - 1}}\\ & = & \frac{{k + (a - 1)}}{{n + (a - 1) + (b - 1)}} \end{array} θ====θargmaxP(B1,B2,B3,...Bnθ)P(θ)θargmaxi=1nP(Biθ)P(θ)θargmaxθk(1θ)nkθa1(1θ)b1n+(a1)+(b1)k+(a1)
其中a,b是β分布的参数 β ( θ ; a , b ) = θ a − 1 ( 1 − θ ) b − 1 c \beta (\theta ;a,b) = \frac{{{\theta ^{a - 1}}{{(1 - \theta )}^{b - 1}}}}{c} β(θ;a,b)=cθa1(1θ)b1(其中c是一个常数),确定a,b之后就可以确定θ。

1.2

模型是条件概率分布: P θ ( Y , X ) P_\theta(Y,X) Pθ(Y,X)
损失函数是对数损失函数: L ( Y , P ( Y ∣ X ) ) = − l o g P ( Y ∣ X ) L(Y,P(Y|X))=-logP(Y|X) L(Y,P(YX))=logP(YX)
经验风险为: R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) = 1 N ∑ i = 1 N − l o g P ( y i ∣ x i ) = − 1 N ∑ i = 1 N l o g P ( y i ∣ x i ) \begin{array}{ccccc}R_{emp}(f) & = & \frac{1}{N}\sum\limits_{i=1}^N L(y_i,f(x_i))\\ & = & \frac{1}{N}\sum\limits_{i=1}^N-logP(y_i|x_i)\\&=&-\frac{1}{N}\sum\limits_{i=1}^NlogP(y_i|x_i) \end{array} Remp(f)===N1i=1NL(yi,f(xi))N1i=1NlogP(yixi)N1i=1NlogP(yixi)
最小化经验风险,即最小化 1 N ∑ i = 1 N − l o g P ( y i ∣ x i ) \frac{1}{N}\sum\limits_{i=1}^N-logP(y_i|x_i) N1i=1NlogP(yixi),即最大化 1 N ∑ i = 1 N l o g P ( y i ∣ x i ) \frac{1}{N}\sum\limits_{i=1}^NlogP(y_i|x_i) N1i=1NlogP(yixi)即最大化极大似然估计。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值