贝叶斯理论
栗子 : 假设某人群中10%的人患有癌症,90%的人没有癌症,并且它们卡路里摄入的离散概率分布
Q:有一个人每日摄入卡路里X=1400,猜测他是否患有癌症?
直接由表中的
A:首先我们计算
进而由贝叶斯理论(Bayes' Theorem)得出:
因此,
被称作后验概率(posterior probability)
损失函数
但是... 将一个"癌症患者"误诊为没有癌症(False Negative)比将一个"没有癌症的人"误诊为癌症患者(False Positive)的代价往往要大的多。因为对于前者,患者可能由于误诊耽误治疗;而对于后者,代价可能只是"患者"需要多花些钱做更详细的检查。因此,我们可能不能根据
损失函数(Loss Function)
显然,36%的概率损失5比64%的概率损失1要更糟糕,因此我们应该建议患者进行进一步的检查。
一些定义
- 上文的损失函数是非对称的(asymmetrical)
2. 0-1损失函数定义为
3. 决策规则「decision rule」 (又名分类器「classifier」)定义为
即决策规则
4.
5. 贝叶斯决策规则「Bayes decision rule」(也称作贝叶斯分类器「Bayes classifier」)是最小化
假设
显然,由上式可以得出,如果
在最开始的例子中,如果
6. 贝叶斯风险「Bayes risk」,又称最优化风险「optimal risk」是贝叶斯分类器的风险
由(2)式可以很容易地计算出,在癌症的例子中,
7. 推导
连续型概率分布的情况
假设在之前的例子中,
如果我们将上图中两条曲线的交界点作为决策边界「decision boundary」,我们就犯了和之前一样的错误,即没有考虑先验概率。
假设
为了最大化正确预测的概率,贝叶斯决策规则在上图中选择概率值最高的曲线,即在决策边界的左侧选择患有癌症,在决策边界的右侧选择没有癌症。
我们可以和之前一样定义风险「risk」,区别只是将求和符号改为积分
对于贝叶斯决策规则来说,贝叶斯风险的值是两条曲线中函数值较小的一支下方的面积
即假设如果
如果
贝叶斯最优决策边界
是
三种建立分类器的方法
1 生成模型「Generative models」(如LDA)
- 假设不同类别的样本点来自于不同的概率分布
- 猜测分布的形式(如正态分布)
- 已知
,对于每个类别,拟合概率分布参数
- 对于每个类别
,估计
- 利用贝叶斯理论计算出
- 如果使用0-1损失函数,选择最大化
的类别作为预测结果,即最大化
- 完全概率模型,对所有变量进行建模
2 判别模型「Discriminative models」(如logistic regression)
- 直接对
进行建模
- 仅对需要预测的变量进行建模
3 寻找决策边界(如SVM)
- 直接对
进行建模(没有先验)
Comments
- 1和2的优点:
说明了预测的置信度
- 1的优点:能够找出边界样本(
很小)
- 1的缺点:通常很难准确估计样本的分布,真实的分布很少与标准概率分布完全匹配
- 在实践中,如果样本能够很好地被正态分布所近似,并且有足够多的样本点用以估计分布参数,那么生成模型往往是最好的选择