7.1 试使用极大似然法估计西瓜数据集3.0中前3个属性的类条件概率。
解答:
假设类别C为随机变量,则它总共有两种取值:好瓜和坏瓜。前3个属性分别为色泽、根蒂和敲声,分别用随机变量R、 S、 T表示,并且可取值分别为 {
青绿,乌黑,浅白} 、 {
蜷缩,稍蜷,硬挺} 、 {
浊响,沉闷,清脆} .
则使用极大似然法得到的类条件概率估计表达式为
P(R=r|C=c)=|Dc,r||Dc|
P(S=s|C=c)=|Dc,s||Dc|
P(T=t|C=c)=|Dc,t||Dc|
其中 |Dc| 表示训练集中类别为c的样本数。 |Dc,r| 表示训练集中类别为c并且色泽为r的样本数,那么类似的, |Dc,s| 表示训练集中类别为c并且根蒂为s的样本数, |Dc,t| 表示训练集中类别为c并且敲声为t的样本数。
现在只需要对西瓜数据集3.0(P84)计数就能得到结果:
- 好瓜:
D好瓜=8,D坏瓜=9
- 色泽:
D好瓜,青绿=3,D坏瓜,青绿=3 | P(青绿|好瓜)=38,P(青绿|坏瓜)=39 |
---|