朴素贝叶斯模型、SVM模型笔记

最新推荐文章于 2024-09-01 23:36:37 发布

积跬步，慕至千里

最新推荐文章于 2024-09-01 23:36:37 发布

阅读量1.2k

点赞数

分类专栏：机器学习库

本文链接：https://blog.csdn.net/weixin_42521211/article/details/105977889

版权

机器学习库专栏收录该内容

15 篇文章 4 订阅

订阅专栏

一、朴素贝叶斯模型

1 应用场景

朴素贝叶斯的主要应用有文本分类、垃圾文本过滤，情感判别，多分类实时预测等。

朴素贝叶斯分类器的核心假设为自变量之间是条件独立的。该假设的主要目的是为了提高算法的运算效率，如果实际数据集中的自变量不满足独立性假设时，分类器的预测结果往往会产生错误。

通常情况下，贝叶斯分类器的效果不会低于决策树。

2 模型优点

算法在运算过程中简单而高效
算法拥有古典概率的理论支撑，分类效率稳定
算法对缺失数据和异常数据不太敏感

3 模型缺点

模型的判断结果依赖于先验概率，所以分类结果存在一定的错误率
对输入的自变量X要求具有相同的特征（如变量均为数值型或离散型或0-1型）
模型的前提假设 （假设前提：自变量是条件独立的（自变量之间不存在相关性）） 在实际应用中很难满足等

4 模型种类

4.1 高斯贝叶斯分类器

利用高斯贝叶斯分类器对数据集进行分类时要求:

输入的数据集X为连续的数值型变量；
假设数值型变量服从正态分布。

python中，sklearn的子模块naive_bayes中的GaussianNB类。

GaussianNB(priors=None) # priors：用于指定因变量各类别的先验概率，默认以数据集中的类别频率作为先验概率。

4.2 多项式贝叶斯分类器

利用多项式贝叶斯分类器对数据集进行分类时要求:

输入的数据集X为离散型变量；
假设X变量服从多项式分布。

通常情况下，会利用多项式贝叶斯分类器作文本分类，如一份邮件是否垃圾邮件、用户评论是否为正面等。
python中，sklearn的子模块naive_bayes中的MultinomialNB类。

MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)
alpha为平滑系数，为了避免概率为0而设置的

可利用pandas模块中的factorize函数对离散的自变量进行数值转换

4.3 伯努利贝叶斯分类器

利用伯努利贝叶斯分类器对数据集进行分类时要求:

输入的数据集X为0-1二元值；
假设X变量服从伯努利分布。

python中，sklearn的子模块naive_bayes中的BernoulliNB类。

BernoulliNB(alpha=1.0, binarize=0.0, fit_prior=True, class_prior=None)
binarize：如果该参数为浮点型数值，则将以该值为界限，当自变量的值大于该值时，自变量的值将被转换为1，否则被转换为0；如果该参数为None时，则默认训练数据集的自变量均为0-1值。