贝叶斯算法
笔试遇到的概率题目就是出自此处(好好去理解透彻)
逆概问题
实现不知道分布,根据多次的实验可以反推出分布
公式推导:
问题来了,如果不知道学校总人数U,怎么处理,贝叶斯公式就是说了概率的计算与总人数U值无关,分子分母均有,被约掉
由上可以推导出贝叶斯公式:
实例一:单词纠错,纠正为那个单词的问题
获取一个语料库:包含大量的重复单词,可以计算出现单词the或者than的概率多大(这就是先验概率,从自己已有的语料库中可以推断出来)
统计词频:统计语料库中每个单词出现的次数
实例二:垃圾邮件过滤
垃圾邮件和正常邮件的概率事先知道(先验概率),比如通常情况下,1万封邮件,正常邮件9000份,垃圾邮件1000份
P(D|h+)表示将垃圾邮件判断成邮件D的概率(垃圾邮件和D中的邮件单词相同)
在判断邮件是正常邮件还是垃圾邮件的过程中同时除了P(D),所以可以直接将P(D)去掉
求P(D|h+)
P(D|h+)的转化/贝叶斯问题转换成朴素贝叶斯问题:
朴素:假设特征之间互不影响,因此P(d2|d1,h+)化简为P(d2|h+)。实际还是有影响的,但是这个影响相对于能把结果求解出来还是可以忽略的
是垃圾邮件,并且出现单词d1的情况下,出现d2的概率→是垃圾邮件的情况下,出现d2的概率
因为特征d1不会影响到d2,所以直接将d1去掉了
选1000封垃圾邮件,分别统计出现d1,d2,d3...的概率