如何计算联合概率:1. 计算边缘概率;2. 计算条件概率;3. 计算联合概率

联合概率的计算步骤

比如要计算联合概率 P ( X = "offer" , Y = "垃圾邮件" ) P(X = \text{"offer"}, Y = \text{"垃圾邮件"}) P(X="offer",Y="垃圾邮件") P ( X = "offer" , Y = "正常邮件" ) P(X = \text{"offer"}, Y = \text{"正常邮件"}) P(X="offer",Y="正常邮件"),我们需要以下信息:

  1. 边缘概率:表示变量单独发生的概率,例如 P ( X = "offer" ) P(X = \text{"offer"}) P(X="offer") 表示邮件包含“offer”这个词的概率。
  2. 条件概率:例如 P ( Y = "垃圾邮件 ∣ X = "offer" ) P(Y = \text{"垃圾邮件} | X = \text{"offer"}) P(Y="垃圾邮件X="offer") 表示在邮件包含“offer”这个词时,它被分类为垃圾邮件的概率。
  3. 数据统计:我们需要实际的数据集统计信息来确定包含特定词语的邮件数量和这些邮件是否为垃圾邮件或正常邮件。

例子:如何计算联合概率

假设我们有一个数据集,包含 100 封邮件,其中 40 封是垃圾邮件,60 封是正常邮件。现在我们想知道“offer”这个词出现在垃圾邮件和正常邮件中的概率。

假设通过分析数据集,我们得到了以下统计信息:

  • 在 100 封邮件中,有 20 封邮件包含了“offer”这个词。
  • 在包含“offer”的 20 封邮件中,15 封是垃圾邮件,5 封是正常邮件。
1. 计算边缘概率:

首先,我们可以计算“offer”出现在邮件中的概率 P ( X = "offer" ) P(X = \text{"offer"}) P(X="offer")
P ( X = "offer" ) = 包含"offer"的邮件数 总邮件数 = 20 100 = 0.2 P(X = \text{"offer"}) = \frac{\text{包含"offer"的邮件数}}{\text{总邮件数}} = \frac{20}{100} = 0.2 P(X="offer")=总邮件数包含"offer"的邮件数=10020=0.2

2. 计算条件概率:
  • 垃圾邮件中包含“offer”的概率 P ( Y = "垃圾邮件 ∣ X = "offer" ) P(Y = \text{"垃圾邮件} | X = \text{"offer"}) P(Y="垃圾邮件X="offer")
    P ( Y = "垃圾邮件 ∣ X = "offer" ) = 垃圾邮件中包含"offer"的邮件数 包含"offer"的邮件数 = 15 20 = 0.75 P(Y = \text{"垃圾邮件} | X = \text{"offer"}) = \frac{\text{垃圾邮件中包含"offer"的邮件数}}{\text{包含"offer"的邮件数}} = \frac{15}{20} = 0.75 P(Y="垃圾邮件X="offer")=包含"offer"的邮件数垃圾邮件中包含"offer"的邮件数=2015=0.75

  • 正常邮件中包含“offer”的概率 P ( Y = "正常邮件 ∣ X = "offer" ) P(Y = \text{"正常邮件} | X = \text{"offer"}) P(Y="正常邮件X="offer")
    P ( Y = "正常邮件 ∣ X = "offer" ) = 正常邮件中包含"offer"的邮件数 包含"offer"的邮件数 = 5 20 = 0.25 P(Y = \text{"正常邮件} | X = \text{"offer"}) = \frac{\text{正常邮件中包含"offer"的邮件数}}{\text{包含"offer"的邮件数}} = \frac{5}{20} = 0.25 P(Y="正常邮件X="offer")=包含"offer"的邮件数正常邮件中包含"offer"的邮件数=205=0.25

3. 计算联合概率:

根据联合概率的定义, P ( X = "offer" , Y = "垃圾邮件" ) P(X = \text{"offer"}, Y = \text{"垃圾邮件"}) P(X="offer",Y="垃圾邮件") 等于“包含‘offer’且是垃圾邮件”的条件概率乘以“出现‘offer’”的边缘概率:
P ( X = "offer" , Y = "垃圾邮件" ) = P ( Y = "垃圾邮件 ∣ X = "offer" ) × P ( X = "offer" ) P(X = \text{"offer"}, Y = \text{"垃圾邮件"}) = P(Y = \text{"垃圾邮件} | X = \text{"offer"}) \times P(X = \text{"offer"}) P(X="offer",Y="垃圾邮件")=P(Y="垃圾邮件X="offer")×P(X="offer")

代入数值:
P ( X = "offer" , Y = "垃圾邮件" ) = 0.75 × 0.2 = 0.15 P(X = \text{"offer"}, Y = \text{"垃圾邮件"}) = 0.75 \times 0.2 = 0.15 P(X="offer",Y="垃圾邮件")=0.75×0.2=0.15

同样,计算 P ( X = "offer" , Y = "正常邮件" ) P(X = \text{"offer"}, Y = \text{"正常邮件"}) P(X="offer",Y="正常邮件")
P ( X = "offer" , Y = "正常邮件" ) = P ( Y = "正常邮件 ∣ X = "offer" ) × P ( X = "offer" ) P(X = \text{"offer"}, Y = \text{"正常邮件"}) = P(Y = \text{"正常邮件} | X = \text{"offer"}) \times P(X = \text{"offer"}) P(X="offer",Y="正常邮件")=P(Y="正常邮件X="offer")×P(X="offer")

代入数值:
P ( X = "offer" , Y = "正常邮件" ) = 0.25 × 0.2 = 0.05 P(X = \text{"offer"}, Y = \text{"正常邮件"}) = 0.25 \times 0.2 = 0.05 P(X="offer",Y="正常邮件")=0.25×0.2=0.05

总结:

  • P ( X = "offer" , Y = "垃圾邮件" ) = 0.15 P(X = \text{"offer"}, Y = \text{"垃圾邮件"}) = 0.15 P(X="offer",Y="垃圾邮件")=0.15,表示邮件中包含“offer”且是垃圾邮件的联合概率为 0.15。
  • P ( X = "offer" , Y = "正常邮件" ) = 0.05 P(X = \text{"offer"}, Y = \text{"正常邮件"}) = 0.05 P(X="offer",Y="正常邮件")=0.05,表示邮件中包含“offer”且是正常邮件的联合概率为 0.05。

联合概率的计算依赖于边缘概率和条件概率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值