联合概率的计算步骤
比如要计算联合概率 P ( X = "offer" , Y = "垃圾邮件" ) P(X = \text{"offer"}, Y = \text{"垃圾邮件"}) P(X="offer",Y="垃圾邮件") 和 P ( X = "offer" , Y = "正常邮件" ) P(X = \text{"offer"}, Y = \text{"正常邮件"}) P(X="offer",Y="正常邮件"),我们需要以下信息:
- 边缘概率:表示变量单独发生的概率,例如 P ( X = "offer" ) P(X = \text{"offer"}) P(X="offer") 表示邮件包含“offer”这个词的概率。
- 条件概率:例如 P ( Y = "垃圾邮件 ∣ X = "offer" ) P(Y = \text{"垃圾邮件} | X = \text{"offer"}) P(Y="垃圾邮件∣X="offer") 表示在邮件包含“offer”这个词时,它被分类为垃圾邮件的概率。
- 数据统计:我们需要实际的数据集统计信息来确定包含特定词语的邮件数量和这些邮件是否为垃圾邮件或正常邮件。
例子:如何计算联合概率
假设我们有一个数据集,包含 100 封邮件,其中 40 封是垃圾邮件,60 封是正常邮件。现在我们想知道“offer”这个词出现在垃圾邮件和正常邮件中的概率。
假设通过分析数据集,我们得到了以下统计信息:
- 在 100 封邮件中,有 20 封邮件包含了“offer”这个词。
- 在包含“offer”的 20 封邮件中,15 封是垃圾邮件,5 封是正常邮件。
1. 计算边缘概率:
首先,我们可以计算“offer”出现在邮件中的概率
P
(
X
=
"offer"
)
P(X = \text{"offer"})
P(X="offer"):
P
(
X
=
"offer"
)
=
包含"offer"的邮件数
总邮件数
=
20
100
=
0.2
P(X = \text{"offer"}) = \frac{\text{包含"offer"的邮件数}}{\text{总邮件数}} = \frac{20}{100} = 0.2
P(X="offer")=总邮件数包含"offer"的邮件数=10020=0.2
2. 计算条件概率:
-
垃圾邮件中包含“offer”的概率 P ( Y = "垃圾邮件 ∣ X = "offer" ) P(Y = \text{"垃圾邮件} | X = \text{"offer"}) P(Y="垃圾邮件∣X="offer"):
P ( Y = "垃圾邮件 ∣ X = "offer" ) = 垃圾邮件中包含"offer"的邮件数 包含"offer"的邮件数 = 15 20 = 0.75 P(Y = \text{"垃圾邮件} | X = \text{"offer"}) = \frac{\text{垃圾邮件中包含"offer"的邮件数}}{\text{包含"offer"的邮件数}} = \frac{15}{20} = 0.75 P(Y="垃圾邮件∣X="offer")=包含"offer"的邮件数垃圾邮件中包含"offer"的邮件数=2015=0.75 -
正常邮件中包含“offer”的概率 P ( Y = "正常邮件 ∣ X = "offer" ) P(Y = \text{"正常邮件} | X = \text{"offer"}) P(Y="正常邮件∣X="offer"):
P ( Y = "正常邮件 ∣ X = "offer" ) = 正常邮件中包含"offer"的邮件数 包含"offer"的邮件数 = 5 20 = 0.25 P(Y = \text{"正常邮件} | X = \text{"offer"}) = \frac{\text{正常邮件中包含"offer"的邮件数}}{\text{包含"offer"的邮件数}} = \frac{5}{20} = 0.25 P(Y="正常邮件∣X="offer")=包含"offer"的邮件数正常邮件中包含"offer"的邮件数=205=0.25
3. 计算联合概率:
根据联合概率的定义,
P
(
X
=
"offer"
,
Y
=
"垃圾邮件"
)
P(X = \text{"offer"}, Y = \text{"垃圾邮件"})
P(X="offer",Y="垃圾邮件") 等于“包含‘offer’且是垃圾邮件”的条件概率乘以“出现‘offer’”的边缘概率:
P
(
X
=
"offer"
,
Y
=
"垃圾邮件"
)
=
P
(
Y
=
"垃圾邮件
∣
X
=
"offer"
)
×
P
(
X
=
"offer"
)
P(X = \text{"offer"}, Y = \text{"垃圾邮件"}) = P(Y = \text{"垃圾邮件} | X = \text{"offer"}) \times P(X = \text{"offer"})
P(X="offer",Y="垃圾邮件")=P(Y="垃圾邮件∣X="offer")×P(X="offer")
代入数值:
P
(
X
=
"offer"
,
Y
=
"垃圾邮件"
)
=
0.75
×
0.2
=
0.15
P(X = \text{"offer"}, Y = \text{"垃圾邮件"}) = 0.75 \times 0.2 = 0.15
P(X="offer",Y="垃圾邮件")=0.75×0.2=0.15
同样,计算
P
(
X
=
"offer"
,
Y
=
"正常邮件"
)
P(X = \text{"offer"}, Y = \text{"正常邮件"})
P(X="offer",Y="正常邮件"):
P
(
X
=
"offer"
,
Y
=
"正常邮件"
)
=
P
(
Y
=
"正常邮件
∣
X
=
"offer"
)
×
P
(
X
=
"offer"
)
P(X = \text{"offer"}, Y = \text{"正常邮件"}) = P(Y = \text{"正常邮件} | X = \text{"offer"}) \times P(X = \text{"offer"})
P(X="offer",Y="正常邮件")=P(Y="正常邮件∣X="offer")×P(X="offer")
代入数值:
P
(
X
=
"offer"
,
Y
=
"正常邮件"
)
=
0.25
×
0.2
=
0.05
P(X = \text{"offer"}, Y = \text{"正常邮件"}) = 0.25 \times 0.2 = 0.05
P(X="offer",Y="正常邮件")=0.25×0.2=0.05
总结:
- P ( X = "offer" , Y = "垃圾邮件" ) = 0.15 P(X = \text{"offer"}, Y = \text{"垃圾邮件"}) = 0.15 P(X="offer",Y="垃圾邮件")=0.15,表示邮件中包含“offer”且是垃圾邮件的联合概率为 0.15。
- P ( X = "offer" , Y = "正常邮件" ) = 0.05 P(X = \text{"offer"}, Y = \text{"正常邮件"}) = 0.05 P(X="offer",Y="正常邮件")=0.05,表示邮件中包含“offer”且是正常邮件的联合概率为 0.05。
联合概率的计算依赖于边缘概率和条件概率。