山东大学机器学习实验7

最新推荐文章于 2024-09-25 09:36:12 发布

Deep_Dreamer

最新推荐文章于 2024-09-25 09:36:12 发布

阅读量423

点赞数 1

分类专栏：山东大学机器学习实验文章标签：机器学习人工智能深度学习 Powered by 金山文档

本文链接：https://blog.csdn.net/qq_50213874/article/details/129554926

版权

山东大学机器学习实验专栏收录该内容

14 篇文章 12 订阅

订阅专栏

使用朴素贝叶斯对数据集进行训练，并预测给出的一个数据判断属于哪一类。数据集由多个医学预测变量和一个目标变量结果组成。预测变量包括患者怀孕的次数、BMI、胰岛素水平、年龄等。

这次实验分为自行实现朴素贝叶斯和scikit learn中朴素贝叶斯的使用。

首先熟悉朴素贝叶斯的原理：

其中 P（c|x）是给定预测变量（特征）的 c 类的后验概率。

P（c）是类的概率。

P（x|c）是给定类的预测变量的概率的可能性。

P（x）是预测变量的先验概率。

因为我们不关心真正的后验值是什么，所以我们只关心哪个类具有最高的后验值。而且因为所有类的边际概率都是相同的，所以可以用计算分子。

且朴素贝叶斯的假设就是，特征之间是相互独立的，所以我们可以进一步分解，这里用怀孕次数在分类1上举例子：

然后计算每一个似然概率，这里是连续值，根据中心极限定理，我们可以假设怀孕次数服从高斯分布，这意味着p （妊娠∣结果1）是通过将所需参数输入正态分布的概率密度函数来计算的，现在，根据概率密度函数的公式，我们的可能性将是：

而先验概率就是每个类占总数的多少，比较简单。

根据上述的这些，我们就可以计算给定数据在每个类上的概率，取其中的最大值，即该数据点属于哪一个类。

在理解了上层代码后，我们才能更好的在scikit learn中使用朴素贝叶斯。

导入的数据集的部分展示如下：

因为根据高斯分布求似然概率，所以我们需要求每个特征在每个类的均值和方差：

每个特征在每个类的均值如下：

每个特征在每个类的方差如下：

这是给定需要预测的数据点：

之后我们可以根据朴素贝叶斯预测该数据点属于哪一个类：

　　通过计算：该数据属于类别１为2.2311606712297407e-13

　　　　　　　该数据属于类别０为1.7904471741735295e-13

　　取二者的最大值，所以该数据应该属于类别１.

朴素贝叶斯的主要优点有：

1）朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。

2）对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以一批批的去增量训练。

3）对缺失数据不太敏感，算法也比较简单，常用于文本分类。

朴素贝叶斯的主要缺点有：

1）理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。

2）需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。

3）由于我们是通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。

4）对输入数据的表达形式很敏感。

这里附上scikit learn中使用朴素贝叶斯的代码，便于将来使用以及复习理解：

# import dependencies

import numpy as np

import pandas as pd

# other dependencies that you might not need

# just for publishing image in notebook

from IPython.display import Image

from IPython.core.display import HTML

%matplotlib inline