1.贝叶斯公式:
P(Y|X)=P(X|Y)P(Y)/P(X)
推导公式:
P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)
P(Y)为先验概率,即X发生前对Y发生的概率的一个判断(可通过大量样本统计出来);P(Y|X)为后验概率,即在X发生后,对Y发生的概率的重新评估;P(Y,X)为联合概率,即XY都发生的概率;P(Y|X)P(X)为可能性函数,这是一个调整因子,使得预估概率更接近真实概率。
所以条件概率可以理解为:后验概率= 先验概率 * 可能性函数,此公式成立的前提条件是各事件能否发生是统计独立的,若各事件能否发生之间有关联则会形成误差,关联越紧密误差越大。
若“可能性函数”>1,意味着“先验概率”被增强,事件Y的发生的可能性变大
若“可能性函数”=1,意味着X无助于判断Y的可能性
若“可能性函数”<1,意味着“先验概率”被削弱,事件Y的发生的可能性变小
在机器学习的视角,将X理解为"特征",Y理解为“类别(标签)”贝叶斯公式变为如下格式:
P(“甲标签”|“A特征”) = P("A特征"|"甲标签")P("甲标签")/P("A特征")
先验概率为:P("甲标签")
后验概率为:P(“甲标签”|“A特征”)
肯能行函数为:P(“甲标签”|“A特征”)
2.朴素贝叶斯:加上条件独立假设的贝叶斯方法就是朴素贝叶斯方法(Naive Bayes);朴素贝叶斯失去了词语之间的顺序信息,就相当于把所有词语扔到一个袋子里充分混合,完全不管他们之间的顺序关系,这种模型称为词袋模型。在条件独立假设的情况下,“他爱她”和“她爱他”就可以当做一个意思了(嗯,没毛病,世上再也没有单身狗了ヾ§  ̄▽)ゞ2333333)。
通常状态下,我们不会把整段的自然语言作为特征来进行计算(中文博大精深,相同的一句话往往有很多种表达方式,所以用句子来做特征会发现几乎没有能完全匹配的结果),而是将该句子进行分词,将分词结果当作特征用于计算,在这时往往会出现词语重复的情况,处理这种情况一般有以下三种模型:
2.1多项式模型:若考虑重复词语的情况,即重复的词语视为其出现多次,直接按照条件独立假设的方式推导会发现该词语出现的概率进行了多次相乘,即出现n次那它的概率就需要乘n次,进而可以转换成它的n次方,因此称此模型为多项式模型。
2.2伯努利模型(二项独立模型):将重复的词语视为其只出现一次,但是因为丢失了词频信息,所以效果会差一些。
2.3混合模型:在计算句子概率时不考虑重复词语出现次数,在计算词语的概率时需要考虑词语的出现次数。
3.平滑处理技术:朴素贝叶斯方法面对概率为0的情况是很常见的,因为很可能会碰到训练集覆盖不到的词语,出现这种情况的本质还是因为样本数量太少,计算出来的概率失真。对于这种情况,都是给未出现在训练集中的词语一个估计的概率,而相应的调低其他已经出现的词语的概率。平滑技术是因为数据集太小而产生的现实需求,如果数据集足够大,平滑技术对结果的影响将会变小。