先前在恶补机器学习算法的原理及实现,在此做一些总结记录。
首先是贝叶斯法则:
其中,为先验概率,而
表示为在事件A发生的情况下事件B发生的概率;在贝叶斯分类中,在得知后验概率
(表示在某事件发生了,并且它属于哪个分类)的情况下,就可以对样本进行分类,后验概率越大则其为该分类的可能性越大。
而朴素贝叶斯则是一种强假设,假设每一种的特征中都是相互独立的,每一种特征同等重要;例如在垃圾邮件分类中,每一个词的出现的可能性与它周边相邻的词没有关系(这是一种强假设,实际上每一个词出现与上一个词是有联系的,只是在此强调相互独立)。
文本分类案例分析:
假设有个文本集合
,每个文档属于
个分类
,给定一篇文档
,文档最有可能是属于哪个分类呢?可以用以下公式表示:
其中,表示文档所属分类(即
中的一个),而
表示取概率最大的,而在计算最大的概率时,由于分母
都是不变的,则计算
即可,式中
称为似然函数,而
称为先验概率。
假设文档中由
个
组成,则文档中由这
个
组成的特征为
,其中
表示
在文档中出现的次数,则由上式可以表示为:
并且每一个特征都是独立的,因此,所以上式可以表示为:
在引入对数函数以后(引入对数主要是为了更直观的看出结果,并且可以避免小数累乘以后结果underflow),则上式可以表示为