Pg 51-67
朴素贝叶斯
这是一种基于贝叶斯定理的分类技术,假设预测变量之间具有独立性。 简而言之,朴素贝叶斯分类器假定类中某个特定功能的存在与任何其他功能的存在无关。
例如,如果水果是红色,圆形且直径约3英寸,则可以将其视为苹果。
即使这些功能相互依赖或取决于其他功能的存在。
所有这些属性都独立地导致这种水果是苹果的可能性,这就是为什么它被称为“朴素”的原因。
例子
优点:
可以轻松快速地预测测试数据集的类别。在多类别预测中也表现出色。
如果保持独立性假设,那么与其他模型(例如逻辑回归)相比,朴素贝叶斯分类器的性能会更好,并且您需要的训练数据也更少。
与数字变量相比,在分类输入变量的情况下,它表现良好。对于数值变量,假定正态分布(钟形曲线,这是一个很强的假设)。
缺点:
如果分类变量具有一个类别(在测试数据集中),而该类别在训练数据集中没有被观察到,则模型将分配0概率,并且将无法进行预测。这通常称为“零频率”。为了解决这个问题,我们可以使用平滑技术。最简单的平滑技术之一称为拉普拉斯估计。
另一方面,朴素的贝叶斯也被认为是一个不好的估计量,因此,precise_proba的概率输出不要太在意。
朴素贝叶斯的另一个局限性是独立预测变量的假设。在现实生活中,我们几乎不可能获得一组完全独立的预测变量。
伯努利分布
假设你正在抛一枚硬币,它的正面概率为0.4,反面概率为0.6。最简单的概率分布是伯努利分布,它只要求硬币在一次抛硬币后出现头部的概率,即0.4。伯努利分布只是一个随机事件的概率,在一次试验后有两种可能的结果发生。它用于成功/失败类型的随机变量。
二项分布
我们可以对伯努利分布做一个扩展,就是考虑多次事件,而不是只考虑一次时间,然后问一些成功的概率。这叫做二项分布。例如,上面描述的硬币在掷3次后正好有2个头的概率是多少。有很多方法可以实现这个结果。你可以得到[head,head,tail],或者[head,tail,head],或者[tail,head,head]。为此,我们需要考虑通过多种不同的方法来达到所需的总量。
Multinoulli distribution
硬币问题变成骰子多种情况的问题
多项式分布
最后,伯努利分布最普遍的概括是试验数和结果数,称为多项式分布。为了更一般化,这种分布还允许指定每个结果所需的成功次数,而不是像multinoulli分布那样只指定一个结果。这让我们计算出掷骰子6次,得到3个“2”、2个“3”和5的概率。
多项分布衡量的是随机变量 [公式] 进行 [公式] 次Multinoulli试验的结果,其中 [公式] 为所有试验结果中[公式] 的出现次数。
pg 58例子非常详细。。
62页上有一个Probability smoothing 那个是拉普拉斯平滑,分母加上特征个数(例子中是2)分子加上1