朴素贝叶斯 - 贝叶斯估计Python复现:
舟晓南:朴素贝叶斯(Bayes)模型python复现 - 贝叶斯估计;下溢出问题
在《统计学习方法》一书中,详细说明了后验概率最大化与期望风险最小化之间的关系,深入地说明了后验概率最大化的含义,但其中的推导过程有所省略,这篇文章作为补充说明。
后验概率最大化的含义:
书中提到,朴素贝叶斯法将实例分到后验概率最大的类中,这等价于期望风险最小化。
要明白什么是期望风险最小化,首先要明白什么是期望。
期望是指某件事大量发生后的平均结果,反应了随机变量平均取值的大小。计算期望的公式:
其中x为X的取值,p为在X为该取值的概率,K为x可取值的数量。
期望与平均值之间的关系:
其中N是实例总数,n是X为x取值时的实例数量。
举个例子,在10户人家中有3户拥有1个孩子,有3户拥有2个孩子,有4户拥有3个孩子,则其期望为:
即对家庭的期望是每个家庭有2.1个孩子。
说回期望风险,按照书中的定义,期望风险的含义是:模型关于联合分布的期望损失,学习的目标就是选择期望风险最小的模型。
既然期望风险就是期望损失,那么我们需要定义一个损失函数,用来判断模型的好坏。
假设我们在朴素贝叶斯分类器中使用0-1损失函数:
其中f(X)就是习得的朴素贝叶斯模型。
那么期望风险代表的就是损失的平均值,函数为:
因为期望的定义是值出现的概率乘以具体值之和,所以上式可转换为损失函数与联合概率之积的积分:
在上式的转换中运用了联合概率,边缘概率和条件概率的关系。
我们设
H(x)中损失函数大于等于0,条件概率P(y|x)大于0,因此H(x)大于0。同时P(x)也大于0,且当X=x时P(x)(先验概率)为常数,因此期望风险最小化可转换为条件期望最小化,即argminH(x)
上式的第二个等式成立,是因为损失函数表示当分类错误时取1,那么我们只需要最小化分类错误的概率,也就是最小化
上式最后推导出在朴素贝叶斯分类器中,期望风险最小化等价于后验概率最大化。
github:
如果觉得对您有帮助,还烦请点击下面的链接,帮忙github点个star~谢谢~
Zhouxiaonnan/machine-learning-notesandcode
所有笔记目录:包括《统计学习方法》中各个模型的理论和python复现部分,以及数据分析Mysql查询优化。
舟晓南:所有笔记目录 | 数据分析 | 机器学习 | 深度学习等
如何转行数据分析师:
舟晓南:如何转行和学习数据分析 | 工科生三个月成功转行数据分析心得浅谈
舟晓南:求职数据分析师岗位,简历应该如何写?|工科生三个月成功转行数据分析心得浅谈
欢迎关注专栏:
学习笔记:数据分析,机器学习,深度学习zhuanlan.zhihu.com数据分析,机器学习学习社群正式启动~
需要学习资料,想要加入社群均可私信~
在这里会分享各种数据分析相关资源,技能学习技巧和经验等等~
详情私信,一起进步吧!
写于成都 2020-9-4
第一次修改 2020-11-5