分类算法有很多种理论,比如决策树理论、K-最近邻法(KNN)理论、朴素贝叶斯理论、神经网络理论等,每种理论都有对应的分类算法。贝叶斯分类算法是众多分类算法中的一种,确切地说是一类,因为这类算法都是以贝叶斯定理为理论基础,所以被统称为贝叶斯分类。这一课我们将介绍贝叶斯分类算法,并用贝叶斯分类算法做一个简单的文本分类器,演示区分垃圾邮件和正常邮件的过滤器原理。
贝叶斯定理
贝叶斯(Thomas Bayes)是个英国牧师,为了证明上帝的存在,他发明了概率统计学原理。这可不是什么讽刺与幽默,历史上很多科学的发现,都是一些神职人员在研究神学过程中的“副产品”,比如被誉为现代遗传学之父的孟德尔(Gregor Johann Mendel)就是一个修道院的神父,他的豌豆实验想必大家都知道。
玩贝叶斯分类算法之前,先要了解一下贝叶斯定理,该定理其实是一个与概率有关的推理,这里就简单介绍一下贝叶斯定理。高能预警:前方有公式,不过放心,贝叶斯定理真的很简单。
概率和条件概率
概率论中常用 表示