五、朴素贝叶斯面试题总结

最新推荐文章于 2024-07-25 12:14:33 发布

高桥凉瓜

最新推荐文章于 2024-07-25 12:14:33 发布

阅读量1.9k

点赞数

分类专栏：机器学习面试题总结文章标签：机器学习分类概率论人工智能数据挖掘

本文链接：https://blog.csdn.net/Anthony_hit/article/details/123417528

版权

机器学习面试题总结专栏收录该内容

7 篇文章 7 订阅

订阅专栏

1. 朴素贝叶斯

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的数据集，首先基于特征条件独立假设学习输入输出的联合概率分布。然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

2. 贝叶斯公式

在这里插入图片描述

3. 解释先验概率？

就是因变量（二分法）在数据集中的比例。这是在你没有任何进一步的信息的时候，是对分类能做出的最接近的猜测。
即P(Y = c_k)

4. 解释似然估计？

似然估计是在其他一些变量的给定的情况下，一个观测值被分类为1的概率。例如，“FREE”这个词在以前的垃圾邮件使用的概率就是似然估计。
似然函数就是概率分布，要求出在什么参数的条件下，得到这些x的概率是最大的。

5. 朴素贝叶斯的参数估计法

在朴素贝叶斯法中，学习意味着估计P（类别）和 P（特征 | 类别）
（1）极大似然估计
在贝叶斯参数估计法，先验概率的似然估计是：
P(Y = c_k) = 类别c_k出现的次数 / 样本总数N
条件概率的似然估计是：
P(X = a | Y = c_k) = X=a,Y=c_k同时出现的次数 / Y=c_k出现的次数
（2）贝叶斯估计
直接按照似然估计的公式计算，在估计概率是可能出现某项为0的情况，这样会使得连乘的结果也为零，影响到后验概率的计算结果，使分类产生偏差。
做法是在估计概率时，在各个变量的频数的取值上多加一个整数，常取1，称为拉普拉斯平滑。

6.朴素贝叶斯的优缺点

（1）优点：

逻辑简单，易于实现
计算开销小，学习和预测的效率都很高

（2）缺点：
朴素贝叶斯模型假设特征之间相互独立，这个假设在实际应用中往往是不成立的，在特征个数比较多或者特征之间相关性较大时，分类效果不好

7. 判别模型和生成模型

生成方法：由数据学习联合概率分布P(Y, X)，然后求出条件概率分布
朴素贝叶斯，隐马尔可夫模型
（之所以称为生成方法，是因为知道联合概率分布后，计算条件概率的过程，表示了给定输入X产生输出Y的生成关系）
判别方法：直接学习决策函数或者条件概率分布
线性回归，逻辑回归，支持向量机，传统神经网络，线性判别分析（Linear Discriminative Analysis），条件随机场