数学理论根基:贝叶斯决策论(Bayesian Decision Theory)
贝叶斯学派与频率学派:
贝叶斯学派:强调概率的主观性,不强调事件的客观随机性,认为只是观察者不知道事件的结果,知情者对事件不具有随机性。
随机性的根源不在于事件,而在于观察者对该事件的知识状态。
将样本视为固定的,把模型的参数视为关键。
频率学派:强调频率的自然属性,
贝叶斯决策论:
行动空间A:某项实际工作中可能采取的各种行动所构成的集合。
决策δ():样本空间X到行动空间A的一个映射,决策函数可以利用它得到A中的一个行动。
损失函数L(θ,a)=L(θ,δ(~X)):表示参数是θ时采取的行动a所引起的损失
决策风险R(θ,δ):损失函数的期望,R(θ,δ)= EL(θ,δ(~X))
先验分布:描述参数θ在已知样本~X中的分布
平均分布风险ρ(δ):定义为决策风险R(θ,δ)在先验分布下的期望
ρ(δ)=EζR(θ,δ)
贝叶斯决策δ*满足:ρ(δ*)=inf ρ(δ)
贝叶斯决策是在某个先验分布下使得平均风险最小的决策。
参数估计:
极大似然估计和极大后验概率估计
极大似然估计(ML估计):
似然函数:输出~X=(x1,…,xn)^T在模型参数为θ下的概率P(~X|θ)=∏i=1NP(x i |θ)
希望找到^ θ=arg max p(~X|θ)
极大后验概率估计(MAP):
更贴合贝叶斯学派思想的做法,
后验概率,参数θ在训练集~X下所谓的真实的出现概率
核心思想:将待估参数θ看成一个随机变量,从而引入参数θ的先验分布。
朴素贝叶斯:
朴素:独立性假设
贝叶斯:后验概率最大化
朴素贝叶斯的三种模型:
1、 离散型朴素贝叶斯:所有维度的特征都是离散型随机变量
2、 连续型朴素贝叶斯:所有维度的特征都是连续型随机变量
3、 混合型朴素贝叶斯:各个维度的特征有离散型也有连续型
朴素贝叶斯的模型参数即是类别的选择空间
朴素贝叶斯总的参数空间本应包括模型参数的先验概率,样本空间在模型参数下的条件概率和样本空间的概率
离散型朴素贝叶斯:
使用极大似然估计导出模型的具体参数(先验概率,条件概率),使用极大后验概率估计作为模型的决策(输出使得数据后验概率最大化的类别)
半朴素贝叶斯和贝叶斯网:
半朴素贝叶斯(Semi-Naïve Bayes):
基本想法:
提出条件独立性假设的原因正是联合概率难以求解,所以在弱化假设的时候同样应该避免引入过多的联合概率
常见的算法:
ODE算法(One-DependentEstimator,独依赖估计):
算法中各个维度的特征至多依赖一个其他维度的特征
SPODE算法(Super-Parent ODE,超父级独依赖估计):
所有维度的特征都独依赖于同一维度的特征
AODE算法(Averaged One-Dependent Estimator,集成独依赖估计):
以所有维度的特征作为超父训练n个SPODE模型,然后线性组合出最终模型。
贝叶斯网:
贝叶斯网又称信念网,
网的节点就是单一样本的各个维度上的随机变量
连接节点的边就是节点之间的依赖关系