朴素贝叶斯是一种简单但令人惊讶的强大的预测建模算法。
该模型由两种类型的概率组成,可以直接根据您的训练数据计算:
每个班级的概率
给出每个x值的每个类的条件概率。
一旦计算,概率模型可用于使用贝叶斯定理对新数据进行预测。当您的数据是实值时,通常假设高斯分布(钟形曲线),以便您可以轻松估计这些概率。
朴素贝叶斯被称为朴素,因为它假设每个输入变量是独立的。这是一个强有力的假设,对于实际数据是不现实的,然而,该技术对于大范围的复杂问题非常有效。
朴素贝叶斯的优缺点
优点:
朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。
对大数量训练和查询时具有较高的速度。即使使用超大规模的训练集,针对每个项目通常也只会有相对较少的特征数,并且对项目的训练和分类也仅仅是特征概率的数学运算而已;
对小规模的数据表现很好,能个处理多分类任务,适合增量式训练(即可以实时的对新增的样本进行训练);
对缺失数据不太敏感,算法也比较简单,常用于文本分类;
朴素贝叶斯对结果解释容易理解。
缺点:
需要计算先验概率;
分类决策存在错误率;
对输入数据的表达形式很敏感;
由于使用了样本属性独立性的假设,所以如果样本属性有关联时其效果不好。