假设空间是输出是服从某分布的。包含的内涵在于命题的概率和为1。
其计算过程是概率,故各个输入的影响是连续的叠加的,用例会影响概率;允许通过设置先验概率来影响学习过程;结果是概率向量;可以作为衡量标准。
先验概率和后验概率。
一致学习器:训练集上的输出有零错误率。
最小均方误差假设就是极大似然假设。
奥坎姆剃刀可以证明符合期望消息长度最短编码的最优解。概率算法 sum(-log2 pi)。
贝叶斯最优分类器:arg max sum(P(vj | hi)P(hi | D),即在当前假设和观测数据情况下,使概率最大的分类。
算法十:GIBBS算法 没看懂 没查到。。。wtf
算法十一:朴素贝叶斯分类,给定情况下概率最大的分类。前提在给定目标值时,各属性取值相互独立。
参数学习,已知贝叶斯网结构,使用梯度上升的方法进行学习。即迭代各组观察值,调整参数。观察值不完整使用决策树中说明的方法补全。改变假设使在当前假设情况下,样例出现的概率最大。
结构学习,K2算法。没介绍。。。wtf
算法十二:EM算法,当前假设用于估计未知变量,未知变量的期望值用于优化假设。改变假设使在当前假设情况下,由样例和隐藏变量组成的分布的均值最大。
算法十三:k-means,EM算法的泛化。估计k个正态分布混合均值。相当于有k个隐藏变量,ki指示当前数据以多大概率服从均值为ui的正态分布。