1. 当提供假设: P(Hi) = P(Hj)
MAP = ML即 贝叶斯最大后验假设 等于 最大可能Maximum likelihood
很多时候都是用 ML 来代替 MAP maxP(h | D)=max P(D|h) max return ‘h假设’
2. 考一考: Bayes formulas ,全概率公司
用贝叶斯 来刻画衡量 其他学习算法的 准确率。
3. Bayes Optimal Classifier 就是把贝叶斯公式中的加入一层划分。用到全概率公式。目的是解决 H1= 0.4, H2 = 0.3, H3= 0.3 ,MAX = H1所以选 A方案。但实际情况是H2 H3 都属于B方案,按股份应该是选B方案。出现一个大股东欺负所有中小股东 的不合理情况,虽然后者才是占最多股份。为解决此问题,出现最有贝叶斯方案。此方案有平均性能最好。
方案(假设) |
股民(实例) |
4. 由于Bayes Optimal Classifier 每次都要计算后验概率,计算量大,效率低,引入Gibbs 方案, 即随即从股民中随机抽取股民小组(Hi),取 决策方案。 而不是像Bayes Optional Classifier 那样 所有小组都去计算。优点是 降低计算成本。并且错误率 是Bayes Optimal Classifier 错误率 的2 倍 以下。节约的成本 和 相对抬高的 错误率 权衡,在某些决策大会中 该算法 还是不错的。
5.
6. 由于股民不能全面了解方案的利弊,不知如何判断,咨询机构列了一份属性表(属性间不独立)。股民按照表中的属性抒发自己的选择。Naïve Bayes 是跟Bayes Optimal Classifier 不同之处就是 列了张属性表。但是出现统计量太大的问题:统计一种属性组合就要遍历1900000次。(股民必须够多,否则一种属性组合的概率频率是0。用频率估计概率,样本太少,误差很大。但样本够大时,计算量将很大):2个方案*19个属性*50000个股民=1900000。为减少统计量,简单的假设:属性是互相独立的,这样只需遍历1900000份调查表一次就够了。(in a word : Naïve Bayes 要求1.样本够大,2.属性独立)