贝叶斯决策论(Bayesian Decision Theory)
——概率框架下实施决策的基本理论
给定N个类别,令 代表将第j类样本误分为第i类所产生的损失,则基于后验概率将样本x分到第i类的条件风险为:
贝叶斯判定准则(Bayes decision rule) :
# 在所有风险中取出最小的一类样本放入
· 称为贝叶斯最优分类器(Bayes optimal calssifier),其总体风险称为贝叶斯风险(Bayes risk)
· 反映了学习性能的理论上限 (最理想的性能)
问题:--ground truth在现实中难以直接获得
从贝叶斯决策论的角度,机器学习所要实现的是基于有限的训练样本尽可能准确地估计出后验概率
两种基本策略:
判别式 vs 生成式
本质区别:
生成式模型:拿到一个数据集希望把原来的数据分布复原出来
判别式模型:拿到一个数据集,就事论事,按照这个数据集进行划分
** 任何一个数据集都可以看作是从一个数据分布里面得出的采样 -- 潜在假定
样本都是独立分布的样本 -- 独立同分布假设
贝叶斯分类器与贝叶斯学习
## 贝叶斯分类器 ≠ 贝叶斯学习(BAyesian Learning)
频率主义和贝叶斯主义的技术都要用到贝叶斯学习,只不过用法不一样
** 用不用贝叶斯公式与是否为贝叶斯学习无关,
是否为贝叶斯学习取决于是否想把决定参数的分布给搞出来
从概率和统计的角度来说,机器学习至少分为两大派:频率主义和贝叶斯学习
频率主义 vs 贝叶斯主义
· 由频率主义形成统计学习 eg.支持向量机(SVM)
· 由贝叶斯主义形成贝叶斯学习
对于正态分布(高斯分布) ,两大流派的不同看法:
频率主义:
认为θ是真实存在于分布里面的,只要把θ估计出来就可以得出分布,而所有的数据就是从这个分布里面摘取出来的
统计学习以及前面讲到的大多数技术都只是做点估计,所以是统计学习范畴上的
贝叶斯主义:
认为θ不是一个真实存在的东西,是不确定的,参数θ本身应该满足一个分布
贝叶斯学习的根本是认为参数不是个客观存在的事情,是某一种分布产生出来的观察,所以本质上要做分布估计
极大似然估计
先假定某种概率分布形式,再基于训练样例对参数进行估计 (频率主义)
假定P(x|c)具有确定的概率分布形式且被参数唯一确定,则任务就是利用训练集D来估计参数
对于训练集D中第c类严格八年组成的集合的似然(Likelihood)为
# 概率能够连乘的前提条件是每个样本都是独立随机事件(独立同分布假设)
but,连乘易造成下溢,因此通常使用对数似然(Log-Likelihood),书中默认log为ln
于是,的极大似然估计为
** 下溢
指的是运算的结果小于机器所能表示的最小值,使得显示结果出错的情况
朴素贝叶斯分类器(Native Bayes Classifier)
主要障碍:所以属性上的联合概率(上式的框中部分)难以从有限训练样本估计获得
## 联合概率常出现:组合爆炸,样本稀疏的情况
=> 基本思路:假定每个属性(feature)独立
# 离散属性:为某一属性值的样本个数除以总的样本数
# 连续属性:则假定概率密度属于高斯分布再用公式来求解