朴素贝叶斯与KNN算法

最新推荐文章于 2023-12-09 13:03:32 发布

Calm-Cat

最新推荐文章于 2023-12-09 13:03:32 发布

阅读量4.4k

点赞数 2

分类专栏：机器学习人工智能文章标签：朴素贝叶斯 KNN 机器学习导论

本文链接：https://blog.csdn.net/qq_25297587/article/details/89950929

版权

机器学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

人工智能

4 篇文章 0 订阅

订阅专栏

朴素贝叶斯算法

数学基础

我们先举一个例子。投硬币是一个随机过程，我们不能预测任意一次投币结果是正面还是反面，我们只能谈论其下一次结果是正面或者反面的概率，如果容貌取得一些额外的数据，如硬币的精准成分，硬币的最初位置，投币的力量与方向，硬币的落地点的情况等，投币的准确结果是可以预测的。

因此，我们有如下定义：
我们将不能获取的那些额外的数据称之为不可观测的变量(unobservable variable)。在投币的例子中，唯一可观测的变量(observable variable) 是投币的结果。我们用 $z$ 表示不可观测的变量，用 $x$ 表示可观测的变量，事实上我们有

$f\left( z \right)$

其中 $f\left( \cdot \right)$ 是一个确定性函数，他定义不可观测数据的输出。因为我们不能用这种方式对该过程进行建模，所以我们定义输出 $X$ 为指明该过程、由概率分布 $P\left( X = x \right)$ 抽取的随机变量。

如果我们不知道 $P\left( X \right)$ ，并想从给定的样本估计，就需要统计学知识了。我们有一个样本 $\chi$ ，包含由可观测变量 $x^{i}$ 的概率分布（记为 $p\left( x \right)$ ）抽取出的样例，目的是使用样本 $\chi$ 构造一个它的近似 $\hat{p}\left( x \right)$ 。
而朴素贝叶斯算法，便是求解该过程的一个算法。

我们设可以观测的条件用伯努利随机变量 $C$ 表示，根据上文，一个最简单的 $C$ 的定义就是观测的结果。我们用 $x$ 表示观测变量向量， $x$ 的一个简单的例子便是上文投掷硬币时硬币的精准成分，硬币的最初位置，投币的力量与方向，硬币的落地点的情况等等。则根据贝叶斯规则，我们有如下公式：

$p\left( \left. C \right|x \right) = \frac{p\left( C \right)p\left( \left. x \right|C \right)}{p\left( x \right)}$

如何理解这个公式？我们还拿掷硬币的例子来说。假设我们投掷了1000次硬币，我们利用某些手段精确的得到了这1000次掷硬币时每次硬币的精准成分，硬币的最初位置，投币的力量与方向，硬币的落地点的情况以及每次掷硬币的结果；当我们掷硬币第1001次时，在观测结果之前，我们已经得到这次掷硬币时硬币的精准成分，硬币的最初位置，投币的力量与方向，硬币的落地点的情况，那么我们如何预测这1001次掷硬币的结果？我们可以根据以往掷硬币的经验，判断在1001次掷硬币时，利用获得到的观测到的硬币的精准成分，硬币的最初位置，投币的力量与方向，硬币的落地点的情况这些因素值与之前投掷时其所有取值完全相同的所有的掷硬币的实验相比较，计算这些取值相同的实验中出现正面的次数和出现反面的次数的比例，而这个比例，便是这次掷硬币结果是正面和反面的概率。用公式表示，则为：
$p\left( \left. 第1001次掷硬币为正面 \right|\left\{精准成分,最初位置,\ldots \right\} = \left\{ a,b\ldots \right\} \right)$ $\frac{p\left(掷硬币为正面 \right)p\left( \left. 精准成分= a, 最初位置= b\ldots \right| 掷硬币为正面\right)}{p\left(精准成分= a, 最初位置= b \ldots \right)}$
如何求解 $p\left( \left. 精准成分 = a, 最初位置 = b\ldots \right|掷硬币为正面 \right)$ 即 $p\left( \left. x \right|C \right)$ 呢？我们一般假设每个可观测的条件都是独立的，即

$p\left( \left. 精准成分 = a,最初位置 = b\ldots \right| 掷硬币为正面\right)=$ $p\left( \left. 精准成分 = a \right|掷硬币为正面\right) \times p\left( \left. 最初位置 = b \right|掷硬币为正面 \right) \times \ldots$

用数学符号表示即令 $\left( x_{1},x_{2}\ldots \right)$ ，则

$p\left( \left. x \right|C \right) = p\left( \left. x_{1} \right|C \right)p\left( \left. x_{2} \right|C \right)\ldots$

而在实际求解问题中，对于分母 $p\left( x \right)$ 我们一般不直接求它，而是根据

$\sum_{i = 1}^{n}{p\left( \left. C_{i} \right|x \right) = 1}$

即

$\sum_{i = 1}^{n}{\frac{p\left( C_{i} \right)p\left( \left. x \right|C_{i} \right)}{p\left( x \right)} = 1}$

求出所有可能结果带有 $p\left( x \right)$ 的式子，利用概率归一化原理得出每个 $p\left( \left.C_{i} \right|x \right)$ 的概率，并假设该次的结果为 $max(p\left( \left. C_{i} \right|x \right))$ .

理解了上述问题，下面的概念便不难理解了。

我们将 $p\left( C = K \right)$ 称之为 $C$ 取值为 $K$ 的先验概率（prior
probability），与 $x$ 的取值无关。先验概率满足

$\sum_{i = 1}^{n}{p\left( C = K \right) = 1}$

我们将 $p\left( \left. x \right|C \right)$ 称之为类似然（class likelihood）,是属于 $C$ 的时间具有相关联的观测值 $x$ 的条件概率。
$p\left( x \right)$ 是证据（evidence），是看到观测 $x$ 的边缘概率，不论它是正实例还是负实例。由全概率公式，我们有：
$\sum_{i = 1}^{n}{p\left( \left. x \right|C = i \right)p\left( C = i \right)}$
使用贝叶斯规则，组合先验知识和数据告诉我们的，在看到观测 $x$ 之后，计算概念的后验概率（posterior probability） $p\left( \left. C \right|x \right)$ 。

$后验 = (先验 \times 似然值) / 证据$

连续值的处理

如果特征是连续值，处理连续值的一种常用技术是使用分级来离散特征值，以获得一组新的伯努利分布特征；

另一种方法：假设 $p$ 具有高斯（正态）分布，则估计 $p\left( X_{j}|C = c_{i} \right)$ :

$p\left( X_{j}|C = c_{i} \right) = \frac{1}{\sqrt{2\pi}\sigma_{\text{ji}}}\exp\left( - \frac{\left( X_{j} - \mu_{\text{ji}} \right)^{2}}{2\sigma_{\text{ji}}^{2}} \right)$

其中，

$\mu_{\text{ji}}$ 指 $C = c_{i}$ 的示例的特征值 $X_{j}$ 的平均值；

$\sigma_{\text{ji}}^{2}$ 指 $C = c_{i}$ 的示例的特征值 $X_{j}$ 的方差。

小结

朴素贝叶斯是一个简单但重要的概率模型。

朴素贝叶斯是一种简单的多类分类算法，它基于贝叶斯定理应用特征之间的“朴素”独立假设。它假设自变量的条件概率在统计上是独立的。

它计算给定标签的每个特征的条件概率分布，然后应用贝叶斯定理计算给定观察的标签的条件概率分布将其用于预测。

它根据新数据属于某个最高概率的特定类别对其进行分类。

但其也有如下缺点：

需要计算先验概率；
分类决策存在错误率；
对输入数据的表达形式很敏感；
由于使用了样本属性独立性的假设，如果样本属性之间有关联时其预测效果不好。

KNN算法

算法描述

定义给定一个数据库 $\left\{ x_{1},x_{2},x_{3},\ldots,x_{n} \right\}$ 和一组类 $\{ C_{1},\ldots,C_{n}\}$ 假定每个元组包括一些数值型的属性值 $x_{i} = \left\{ x_{i1},x_{i2},x_{i3},\ldots,x_{\text{in}} \right\}$ ，每个类也包含数值型属性值 $C_{j} = \{ C_{j1},\ldots,C_{\text{jn}}\}$ ，则分类问题是要分配每个 $x_{i}$ 到满足如下条件的类 $C_{j}$ ：

对 $\forall C_{l} \in C$ 且 $C_{l} \neq C_{j}$ ，有：

$s\text{im}\left( x_{i},C_{j} \right) \geq s\text{im}\left( x_{i},C_{l} \right)$

其中 $s\text{im}\left( x_{i},C_{j} \right)$ 被称为相似性，在实际的计算中往往用距离来表征。距离越近，相似性越大，距离越远，相似性越小。

距离的计算方法有很多种：

设有向量： $\left( a_{1},a_{2},a_{3},\ldots,a_{n} \right),\ b = (b_{1},b_{2},b_{3},\ldots,b_{n})$ 则:

欧几里得距离（Euclidean Distance）：

欧式距离由对应元素间差值平方和的平方根所表示，即

$d\left( a,b \right) = \sqrt{{(a_{1} - b_{1})}^{2} + {(a_{2} - b_{2})}^{2} + \ldots + {(a_{n} - b_{n})}^{2}}\$

曼哈坦距离（Manhattan Distance）：

$d\left( a,b \right) = \left| a_{1} - b_{1} \right| + \left| a_{2} - b_{2} \right| + \ldots + |a_{n} - b_{n}|$

欧式距离和曼哈坦距离 共同点：

距离为一个非负数值；
自身距离为0；
距离函数具有对称性；
距离函数满足三角不等式。

明考斯基距离（Minkowski Distance） 为欧几里得距离和曼哈坦距离的概化：

$d\left( a,b \right) = {(\left( a_{1} - b_{1} \right)^{p} + \left( a_{2} - b_{2} \right)^{p} + \ldots + \left( a_{n} - b_{n} \right)^{p})}^{\frac{1}{p}},p \geq 1$