同步更新在个人网站:http://www.wangpengcufe.com/machinelearning/pythonml-pythonml3/
一、概率基础
概率定义:
概率定义为一件事情发生的可能性,例如,随机抛硬币,正面朝上的概率。
联合概率:
包含多个条件,且所有条件同时成立的概率,记作:𝑃(𝐴,𝐵) 。
条件概率:
事件A在另外一个事件B已经发生条件下的发生概率,记作:𝑃(𝐴|𝐵) 。P(A1,A2|B) = P(A1|B)P(A2|B),需要注意的是:此条件概率的成立,是由于A1,A2相互独立的结果。
二、朴素贝叶斯介绍
公式:
其中,w为给定文档的特征值(频数统计,预测文档提供),c为文档类别。
公式可以理解为:
其中c可以是不同类别。
公式分为三个部分:
𝑃(𝐶):每个文档类别的概率(某文档类别词数/总文档词数)
𝑃(𝑊│𝐶):给定类别下特征(被预测文档中出现的词)的概率
计算方法:𝑃(𝐹1│𝐶)=𝑁𝑖/&