机器学习学习笔记之——监督学习之朴素贝叶斯分类器

最新推荐文章于 2022-10-11 10:18:56 发布

前丨尘忆·梦

最新推荐文章于 2022-10-11 10:18:56 发布

阅读量253

点赞数

分类专栏： tensorflow深度学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_36879493/article/details/110408362

版权

tensorflow深度学习专栏收录该内容

27 篇文章 6 订阅

订阅专栏

朴素贝叶斯分类器

朴素贝叶斯分类器的训练速度比线性模型更快。这种高效率所付出的代价是，朴素贝叶斯模型的泛化能力要比线性分类器（如 LogisticRegression 和 LinearSVC）稍差。

朴素贝叶斯模型如此高效的原因在于，它通过单独查看每个特征来学习参数，并从每个特征中收集简单的类别统计数据。scikit-learn 中实现了三种朴素贝叶斯分类器：GaussianNB、BernoulliNB 和 MultinomialNB。GaussianNB 可应用于任意连续数据，而 BernoulliNB 假定输入数据为二分类数据，MultinomialNB 假定输入数据为计数数据（即每个特征代表某个对象的整数计数，比如一个单词在句子中出现的次数）。BernoulliNB 和 MultinomialNB 主要用于文本数据分类。

BernoulliNB 分类器计算每个类别中每个特征不为 0 的元素个数。用一个简单的例子来说明会很容易理解：

X = np.array([[0, 1, 0, 1],
              [1, 0, 1, 1],
              [0, 0, 0, 1],
              [1, 0, 1, 0]])
y = np.array([0, 1, 0, 1])

这里我们有 4 个数据点，每个点有 4 个二分类特征。一共有两个类别：0 和 1。对于类别 0（第 1、3 个数据点），第一个特征有 2 个为零、0 个不为零，第二个特征有 1 个为零、1 个不为零，以此类推。然后对类别 1 中的数据点计算相同的计数。计算每个类别中的非零元素个数：

counts = {}
for label in np.unique(y):
    # 对每个类别进行遍历
    # 计算（求和）每个特征中 1 的个数
    counts[label] = X[y == label].sum(axis=0)
print("Feature counts:\n{}".format(counts))
'''
Feature counts:
{0: array([0, 1, 0, 2]), 1: array([2, 0, 2, 1])}
'''

另外两种朴素贝叶斯模型（MultinomialNB 和 GaussianNB）计算的统计数据类型略有不同。MultinomialNB 计算每个类别中每个特征的平均值，而 GaussianNB 会保存每个类别中每个特征的平均值和标准差。

参数

MultinomialNB 和 GaussianNB 都只有一个参数 alpha，用于控制模型复杂度。alpha 的工作原理是，算法向数据中添加 alpha 这么多的虚拟数据点，这些点对所有特征都取正值。这可以将统计数据 “平滑化”（smooyhing）。alpha 越大，平滑性越强，模型的复杂度就越低。
优点

GaussianNB 主要用于高维数据，而另外两种朴素贝叶斯模型则广泛用于稀疏计数数据，比如文本。MultinomialNB 的性能通常会高于 BernoulliNB，特别是在包含很多非零特性的数据集（即大型文档）上。

前丨尘忆·梦

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
机器学习学习笔记之——监督学习之朴素贝叶斯分类器

朴素贝叶斯分类器朴素贝叶斯分类器的训练速度比线性模型更快。这种高效率所付出的代价是，朴素贝叶斯模型的泛化能力要比线性分类器（如 LogisticRegression 和 LinearSVC）稍差。朴素贝叶斯模型如此高效的原因在于，它通过单独查看每个特征来学习参数，并从每个特征中收集简单的类别统计数据。scikit-learn 中实现了三种朴素贝叶斯分类器：GaussianNB、BernoulliNB 和 MultinomialNB。GaussianNB 可应用于任意连续数据，而 BernoulliNB
复制链接

扫一扫

专栏目录