第1关:贝叶斯分类
任务描述
本关任务:初始化高斯贝叶斯模型,并训练模型,测试其在分类上的性能。调节模型参数,使邮件分类性能不低于70%。
相关知识
为了完成本关任务,你需要掌握:
1.贝叶斯定理;
2.朴素贝叶斯分类;
3.scikit-learn 中的朴素贝叶斯。
贝叶斯定理
贝叶斯定理由英国数学家贝叶斯发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A) 。用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。贝叶斯公式又被称为贝叶斯定理、贝叶斯规则,是概率统计中的应用所观察到的现象对有关概率分布的主观判断(即先验概率)进行修正的标准方法。
朴素贝叶斯的思想就是根据某些个先验概率计算 Y 变量属于某个类别的后验概率,也就是根据先前事件的有关数据估计未来某个事件发生的概率。
整个朴素贝叶斯分类分为三个阶段:
准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本;也是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。
分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,