李宏毅机器学习4(P8)

一. 从基础概率推导贝叶斯公式,朴素贝叶斯公式(1)

1.1基本概率公式

我们先交待基本概率公式:
设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability):
(1) P ( A ∣ B ) = P ( A B ) / P ( B ) , P(A|B) = P(AB)/P(B), \tag{1} P(AB)=P(AB)/P(B),(1)
由条件概率(1)得到乘法公式:
(2) P ( A B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) , P(AB) = P(A|B)P(B) = P(B|A)P(A), \tag{2} P(AB)=P(AB)P(B)=P(BA)P(A),(2)
乘法公式的推广:对于任何正整数 n ≥ 2 n \geq 2 n2,当 P ( A 1 A 2 … A n − 1 ) > 0 P\left(A_{1} A_{2} \dots A_{n-1}\right)>0 P(A1A2An1)>0时,有:
(3) P ( A 1 A 2 … A n − 1 A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) … P ( A n ∣ A 1 A 2 … A n − 1 ) \mathrm{P}\left(\mathrm{A}_{1} \mathrm{A}_{2} \ldots \mathrm{A}_{\mathrm{n}-1} \mathrm{A}_{\mathrm{n}}\right)=\mathrm{P}\left(\mathrm{A}_{1}\right) \mathrm{P}\left(\mathrm{A}_{2} | \mathrm{A}_{1}\right) \mathrm{P}\left(\mathrm{A}_{3} | \mathrm{A}_{1} \mathrm{A}_{2}\right) \ldots \mathrm{P}\left(\mathrm{A}_{\mathrm{n}} | \mathrm{A}_{1} \mathrm{A}_{2} \ldots \mathrm{A}_{\mathrm{n}-1}\right) \tag{3} P(A1A2An1An)=P(A1)P(A2A1)P(A3A1A2)P(AnA1A2An1)(3)
从而可以推导出全概率公式:
如果事件组 B 1 B_1 B1 B 2 B_2 B2,…满足
1. B 1 B_1 B1 B 2 B_2 B2,…两两互斥,即 B i ∩ B j = ∅ B_{i} \cap B_{j}=\emptyset BiBj= i 不 等 于 j i 不等于 j ij,i,j=1,2,…,且 P ( B i ) > 0 , i = 1 , 2 , . . . ; P(B_i)>0,i=1,2,...; P(Bi)>0,i=1,2,...;
2. B 1 ∪ B 2 ∪ … = Ω \mathrm{B}_{1} \cup \mathrm{B}_{2} \cup \ldots=\Omega B1B2=Ω,则称事件组 B 1 B_1 B1 B 2 B_2 B2,…是样本空间 Ω \Omega Ω的一个划分
B 1 B_1 B1 B 2 B_2 B2,…是样本空间 Ω \Omega Ω的一个划分,A为任一事件,则:
(4) P ( A ) = ∑ i = 1 ∞ P ( B i ) P ( A ∣ B i ) , P(A)=\sum_{i=1}^{\infty} P\left(B_{i}\right) P\left(A | B_{i}\right),\tag{4} P(A)=i=1P(Bi)P(ABi),(4)

1.2贝叶斯公式

1.与全概率公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件 B i B_i Bi的概率),设 B 1 B_1 B1 B 2 B_2 B2,…是样本空间Ω的一个划分,则对任一事件A(P(A)>0),有
(5) P ( B i ∣ A ) = P ( A B i ) P ( A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) , P\left(B_{i} | A\right)=\frac{P(AB_i)}{P(A)}= \frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A | B_{j}\right)},\tag{5} P(BiA)=P(A)P(ABi)=j=1nP(Bj)P(ABj)P(Bi)P(ABi),(5)

1.3朴素贝叶斯公式

其实我看了李航统计学习,这个公式还不是很能懂,我就先看看其他人怎么回答
这个是来自李航统计学习方法。
如果按照李宏毅老师的做法

二. 学习先验概率(2)

为了很好的说明这个问题,在这里举一个例子:
玩英雄联盟占到中国总人口的60%,不玩英雄联盟的人数占到40%:

为了便于数学叙述,这里我们用变量X来表示取值情况,根据概率的定义以及加法原则,我们可以写出如下表达式:

P(X=玩lol)=0.6;P(X=不玩lol)=0.4,这个概率是统计得到的,即X的概率分布已知,我们称其为先验概率(prior probability);

三. 学习后验概率(3)

另外玩lol中80%是男性,20%是小姐姐,不玩lol中20%是男性,80%是小姐姐,这里我用离散变量Y表示性别取值,同时写出相应的条件概率分布:、
P(Y=男性|X=玩lol)=0.8,P(Y=小姐姐|X=玩lol)=0.2

P(Y=男性|X=不玩lol)=0.2,P(Y=小姐姐|X=不玩lol)=0.8
那么我想问在已知玩家为男性的情况下,他是lol玩家的概率是多少:

依据贝叶斯公式(5)可得:

P(X=玩lol|Y=男性)=P(X=玩lol, Y=男性)/P(Y=男性)
=P(Y=男性|X=玩lol)*P(X=玩lol)/
[ P(Y=男性|X=玩lol)*P(X=玩lol)+P(Y=男性|X=不玩lol)*P(X=不玩lol)]
这个概率就是后验概率。

四. 学习LR和linear regression之间的区别(4)

个人感觉逻辑回归和线性回归首先都是广义的线性回归,
其次经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数。
逻辑回归是分类算法,llinear regression是回归算法
两者前面的公式一样,逻辑回归后续会加上激活函数,让输出限制在0到1之间,这样可以更小的减少异常点的干扰,鲁班性更好

五. 推导sigmoid function公式(5)

先给出sigmoid funciton的公式:
σ ( z ) = 1 1 + e − z \sigma(z)=\frac{1}{1+e^{-z}} σ(z)=1+ez1
这个公式我们只知道怎么用,却不知道它怎么来的,也没有底层的含义。我就搬了同学的解答来说明:
首先假设我们有两个class:class1和class2,并且给出一个sample x,我们的目标是求x属于C1的概率是多少。
这个我们可以贝叶斯公式(5)来轻松得到,也就是:
P ( C 1 ∣ x ) = P ( x ∣ C 1 ) P ( C 1 ) P ( x ) P\left(C_{1} | x\right)=\frac{P\left(x | C_{1}\right) P\left(C_{1}\right)}{P(x)} P(C1x)=P(x)P(xC1)P(C1)
其中:
P ( x ) = P ( x ∣ C 1 ) P ( C 1 ) + P ( x ∣ C 2 ) P ( C 2 ) P(x)=P\left(x | C_{1}\right) P\left(C_{1}\right)+P\left(x | C_{2}\right) P\left(C_{2}\right) P(x)=P(xC1)P(C1)+P(xC2)P(C2)
把公式带到公式分母中:
P ( C 1 ∣ x ) = P ( x ∣ C 1 ) P ( C 1 ) P ( x ∣ C 1 ) P ( C 1 ) + P ( x ∣ C 2 ) P ( C 2 ) P\left(C_{1} | x\right)=\frac{P\left(x | C_{1}\right) P\left(C_{1}\right)}{P\left(x | C_{1}\right) P\left(C_{1}\right)+P\left(x | C_{2}\right) P\left(C_{2}\right)} P(C1x)=P(xC1)P(C1)+P(xC2)P(C2)P(xC1)P(C1)
然后同时除以分子就变成了:
P ( C 1 ∣ x ) = 1 1 + P ( x ∣ C 2 ) P ( C 2 ) P ( x ∣ C 1 ) P ( C 1 ) P\left(C_{1} | x\right)=\frac{1}{1+\frac{P\left(x | C_{2}\right) P\left(C_{2}\right)}{P\left(x | C_{1}\right) P\left(C_{1}\right)}} P(C1x)=1+P(xC1)P(C1)P(xC2)P(C2)1
设:
z = ln ⁡ P ( x ∣ C 1 ) P ( C 1 ) P ( x ∣ C 2 ) P ( C 2 ) z=\ln \frac{P\left(x | C_{1}\right) P\left(C_{1}\right)}{P\left(x | C_{2}\right) P\left(C_{2}\right)} z=lnP(xC2)P(C2)P(xC1)P(C1)
把z带入公式,可以得到:
σ ( z ) = 1 1 + e − z \sigma(z)=\frac{1}{1+e^{-z}} σ(z)=1+ez1
我基本照搬,而且那个链接还有更加详细的解释,我就不在赘述。

参考文献

https://zhuanlan.zhihu.com/p/26464206
https://www.julyedu.com/question/big/kp_id/23/ques_id/983
https://blog.csdn.net/Crafts_Neo/article/details/90520609
https://blog.csdn.net/chixujohnny/article/details/78639554

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值