朴素贝叶斯算法
贝叶斯定理![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/3da4135d8f5a654025e94a043a3ebd50.png)
用朴素贝叶斯算法进行分类
e.g:已知用户开车(步行)上班随薪水和年龄的分布,预测一个新用户是开车还是步行上班
步骤:
- 求已知新用户特征,其步行上班的概率
- 求先验概率:用户步行上班的概率
- 求特征概率:在新用户周围画一个圈,圈内的用户的年龄与薪水和新用户很相近,
用圈内的老用户数除以总的老用户数,代表新用户特征(年龄和薪水)的概率
- 求条件的似然(已知用户是步行上班,求其满足新用户特征的概率):
- 利用同样的方式计算已知新用户特征,其开车上班的概率
- 比较两个后验概率的值,将用户分到概率大的那一类
一些注意事项
- 为什么叫“朴素”
假设:数据的所有特征都是独立不相关的 - 如何巧妙地避开特征概率的计算
因为最后是两个后验概率的比较,所以直接比较分子就行了 - 将分类不止两类,有多类怎么办
算出所有种类的后验概率再进行比较