基于概率论的分类方法:朴素贝叶斯
前两章KNN和决策树相对来说是很简单的,本章开始学习朴素贝叶斯,使用基于概率论的分类方法。这部分的内容要用一定的统计学和概率论与数理统计的基础。
可参考中国大学MOOC课程概率论与数理统计 由哈工大数学系出品,另外还可参考浙江大学和同济大学的概率论与数理统计课程,相关课程请自行搜索。
朴素贝叶斯总结
贝叶斯相关理论一开始并没有理解,看了好多遍视频,再结合书,来来回回倒腾了好多次,最后再细细体会才算基本上弄明白了。想弄明白贝叶斯相关理论基础需要把前言部分推荐的书《概率论与数理统计》第一章和第二章中条件概率、乘法定理以及全概率弄明白,建议最好跟着老师的视频看。
贝叶斯其实最主要的就是MLiA P60页的这个公式:
p(ci|w)=p(w|ci)p(ci)p(w) p ( c i | w ) = p ( w | c i ) p ( c i ) p ( w )
其中的 w w 是一个句子的词向量(直接理解为句子组成方式即可,如何转换成向量可参考书上), 为类别(侮辱性或非侮辱性), p(ci|w) p ( c i | w ) 则表示在给定一个句子组成方式的情况下属于类别