一.贝叶斯要解决的问题:
正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率多大?
逆向概率:若我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,则我们可以就此对袋子里面的黑白球比例做出什么猜测?
二.贝叶斯定理分类思想
基于概率,通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。
三.贝叶斯公式
或表示为:
W:给定文档的特征值(频数统计,预测文档提供),C:文档类别。
【案例1】水果特征和类别图如下。要求:在给定形状为圆形的特征下,搭建类别为樱桃的概率模型。
【案例2】接着上一节的案例。已知小明是产品经理,体型超重,判断女神是否会喜欢?
特征值:职业,体型;目标值:女神是否喜欢(二分类)。
此时:
但是P(产品经理,超重) = 0,导致无法计算结果。原因是样本量太小,不具有代表性。所以此方法不适合。但是可以用朴素贝叶斯算法解决。
四.贝叶斯分类典型应用
垃圾邮件过滤
文本情感分类:电影评论
论坛真实账号检测
浏览器输入自动提示