1.概述
分类器有时很难给出该数据实例属于哪一类这类问题的明确答案,这时可以要求分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值。之所以称为’朴素‘,是因为整个形式化过程只做最原始,最简单的假设。
优点:在数据较少的情况下仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感。
适用数据类型:标称型数据。
标称型:一般在有限的数据中取,而且只存在‘是’和‘否’两种不同的结果(一般用于分类)
数值型:可以在无限的数据中取,而且数值比较具体化,例如4.02,6.23这种值(一般用于回归分析)
朴素贝叶斯理论是贝叶斯决策理论的一部分,所以先来了解一下贝叶斯理论。
2.贝叶斯理论
假设我们现在有一个数据集,它由两类数据组成,数据分布如图:
我们现在用p1(x,y)表示数据点(x,y)属于类别1(图