《统计学习方法》第一章学习笔记

生成模型和判别模型的区别:
生成模型:通过联合概率计算生成值的概率,模型表示为
P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X)=\frac{P(X,Y)}{P(X)} P(YX)=P(X)P(X,Y)
判别模型:直接计算生成值的概率,模型表示为 P ( Y ∣ X ) P(Y|X) P(YX)或者是 f ( X ) f(X) f(X)

习题
1.1说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。
统计学习方法三要素:
要素1模型:伯努利模型
设取值为1的概率值 θ \theta θ,则k次观测结果为1的事件可描述为 P ( x 1 , x 2 . . . x n ∣ θ ) = θ k ⋅ ( 1 − θ ) ( n − k ) P(x_1,x_2...x_n|\theta)=\theta^k\cdot(1-\theta)^{(n-k)} P(x1,x2...xnθ)=θk(1θ)(nk)
要素2策略:对数损失函数,损失函数为 − l o g P ( x 1 , x 2 . . . x n ∣ θ ) -logP(x_1,x_2...x_n|\theta) logP(x1,x2...xnθ)
要素3算法:
极大似然估计: a r g m a x θ ^ m l e = a r g m a x θ ( l o g P ( x 1 , x 2 . . . x n ∣ θ ) ) = a r g m a x θ ( k l o g θ + ( n − k ) l o g ( 1 − θ ) ) argmax\hat{\theta}_{mle}=argmax\theta (logP(x_1,x_2...x_n|\theta))=argmax\theta(klog\theta+(n-k)log(1-\theta)) argmaxθ^mle=argmaxθ(logP(x1,x2...xnθ))=argmaxθ(klogθ+(nk)log(1θ)) (1)
对公式1求极值: k θ − n − k 1 − θ = 0 \frac{k}{\theta}-\frac{n-k}{1-\theta}=0 θk1θnk=0
得到概率 θ = k n \theta=\frac{k}{n} θ=nk

贝叶斯估计: P ( θ ∣ x 1 , x 2 . . . x n ) = P ( x 1 , x 2 . . . x n ∣ θ ) ⋅ P ( θ ) P ( x 1 , x 2 . . . x n ) P(\theta|x_1,x_2...x_n)=\frac{P(x_1,x_2...x_n|\theta)\cdot P(\theta)}{P(x_1,x_2...x_n)} P(θx1,x2...xn)=P(x1,x2...xn)P(x1,x2...xnθ)P(θ)
假设参数 θ \theta θ服从参数为a,b的Beta分布, P ( θ ) = Γ ( a + b ) Γ ( a ) ⋅ Γ ( b ) ⋅ θ ( a − 1 ) ⋅ ( 1 − θ ) ( b − 1 ) P(\theta)=\frac{\Gamma(a+b)}{\Gamma(a)\cdot \Gamma(b)}\cdot \theta^{(a-1)}\cdot (1-\theta)^{(b-1)} P(θ)=Γ(a)Γ(b)Γ(a+b)θ(a1)(1θ)(b1)
a r g m a x θ ^ m l e = a r g m a x θ ( P ( θ ∣ x 1 , x 2 . . . x n ) ) = a r g m a x θ ( P ( x 1 , x 2 . . . x n ∣ θ ) ⋅ P ( θ ) ) = a r g m a x θ ( l o g ( θ ( a + k − 1 ) ⋅ ( 1 − θ ) ( b + n − k − 1 ) ) ) argmax\hat{\theta}_{mle}=argmax\theta(P(\theta|x_1,x_2...x_n))=argmax\theta(P(x_1,x_2...x_n|\theta)\cdot P(\theta))=argmax\theta(log(\theta^{(a+k-1)}\cdot (1-\theta)^{(b+n-k-1)} )) argmaxθ^mle=argmaxθ(P(θx1,x2...xn))=argmaxθ(P(x1,x2...xnθ)P(θ))=argmaxθ(log(θ(a+k1)(1θ)(b+nk1))) (2)
对公式2求极值,得到 θ = k + a − 1 n + a + b − 2 \theta=\frac{k+a-1}{n+a+b-2} θ=n+a+b2k+a1

1.2通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。
R e m p ( f ^ ) = 1 N ∑ i = 1 N L ( y i , f ^ ( x i ) ) = − 1 N ∑ i = 1 N P ( y i ∣ x i ) R_{emp}(\hat f)=\frac{1}{N}\sum_{i=1}^N L(y_i,\hat f(x_i))=-\frac{1}{N}\sum_{i=1}^N P(y_i|x_i) Remp(f^)=N1i=1NL(yi,f^(xi))=N1i=1NP(yixi)
R e m p ( f ^ ) R_{emp}(\hat f) Remp(f^)最小化,即 ∑ i = 1 N P ( y i ∣ x i ) \sum_{i=1}^N P(y_i|x_i) i=1NP(yixi) 最大化;极大似然估计即 ∏ i = 1 N P ( y i ∣ x i ) \prod_{i=1}^N P(y_i|x_i) i=1NP(yixi) ,两者等价

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值