贝叶斯&python应用

最新推荐文章于 2021-12-18 11:43:36 发布

AIHUBEI

最新推荐文章于 2021-12-18 11:43:36 发布

阅读量420

点赞数 2

文章标签： python 机器学习数据挖掘朴素贝叶斯算法肿瘤

本文链接：https://blog.csdn.net/AIHUBEI/article/details/105364111

版权

贝叶斯

贝叶斯判定准则

为最小化总体风险，只需要在每个样本上选择那个能使条件风险 $R (c ∣ x)$ 最小的类别标记，即：
$h^*{(x)}=\argmin\limits_{c\in{\mathcal Y}}R(c|x)\tag{式1}$
此时， $h^*(x)$ 称为贝叶斯最优分类器。
已知，条件风险 $R (c ∣ x)$ 的计算公式为:
$R(c_i|x)=\sum_{j=1}^{N}\lambda_{ij}P(c_j|x)\tag{式2}$
如若目标是最小化分类错误率，则误判损失 $\lambda_{ij}$ 对应为0/1损失，即:
$\begin{aligned} \lambda_{ij}= \begin{cases} 0,\qquad &{if\quad i=j}\\ 1,&otherwise \end{cases} \end{aligned}\tag{式3}$
那么条件风险 $R (c ∣ x)$ 的计算公式进一步展开为：
$\begin{aligned} R(c_i|x)&=1\cdot P(c_1|x)+\cdots +1\cdot P(c_{i-1}|x)+0\cdot P(c_i|x)\\ &+1\cdot P(c_{i+1}|x)+\cdots+1\cdot P(c_N|x)\\ &=P(c_1|x)+\cdots+P(c_{i-1}|x)+P(c_{i+1}|x)+\cdots +P(c_N|x)\tag{式4} \end{aligned}$
由于 $\sum_{j=1}^{N}P(c_j|x)=1$ ,所以有:
$R(c_i|x)=1-P(c_i|x)\tag{式5}$
于是呢，最小化错误率的贝叶斯最优分类器就是:
$h^*(x)=\argmin\limits_{c\in{\mathcal{Y}}}R(c|x)=\argmin\limits_{c\in{\mathcal{Y}}}(1-P(c|x))=\argmax\limits_{c\in{\mathcal{Y}}}P(c|x)\tag{式6}$

多元正态度分布参数的极大似然估计

已知对数似然函数为:
$LL(\theta_c)=\sum_{x\in{D_c}}logP(x|\theta_c)\tag{式7}$
为了便于计算，令 $l o g$ 的底数为 $e$ ，则对数似然函数为:
$LL(\theta_c)=\sum_{x\in{D_c}}lnP(x|\theta_c)\tag{式8}$
由于 $P(x|\theta_c)=P(x|c)\sim\mathcal{N}(\mu_c,\sigma_c^2)$ 那么：
$P(x|\theta_c)=\cfrac{1}{\sqrt{(2\pi)^d{|\Sigma_c|}}}exp(-\cfrac{1}{2}(x-\mu_c)^T\Sigma_c^{-1}(x-\mu_c))\tag{式9}$
其中， $d$ 表示 $x$ 的维数， $\Sigma_c=\sigma_c^2$ 为对称正定协方差矩阵， $|\Sigma_c|$ 表示行列式，将上式代入对数似然函数可得:
$LL(\theta_c)=\sum_{x\in{D_c}}ln[\cfrac{1}{\sqrt{(2\pi)^d{|\Sigma_c|}}}exp(-\cfrac{1}{2}(x-\mu_c)^T\Sigma_c^{-1}(x-\mu_c))]\tag{式10}$
令 $D_c=N|$ ,则对数似然函数化为:
$\begin{aligned} LL(\theta_c)&=\sum_{x=1}^{N}ln[\cfrac{1}{\sqrt{(2\pi)^d{|\Sigma_c|}}}exp(-\cfrac{1}{2}(x_i-\mu_c)^T\Sigma_c^{-1}(x_i-\mu_c))]\\ &=\sum_{i=1}^{N}ln[\cfrac{1}{\sqrt{(2\pi)^d}}\cdot \cfrac{1}{\sqrt{|\Sigma_c|}}exp(-\cfrac{1}{2}(x_i-\mu_c)^T\Sigma_c^{-1}(x_i-\mu_c))]\\ &=\sum_{i=1}^{N}\{ln\cfrac{1}{\sqrt{(2\pi)^d}}+ln\cfrac{1}{\sqrt{|\Sigma_c|}}+ln[exp(-\cfrac{1}{2}(x_i-\mu_c)^T\Sigma_c^{-1}(x_i-\mu_c))]\}\\ &=\sum_{i=1}^{N}\{-\cfrac{d}{2}ln(2\pi)-\cfrac{1}{2}ln|\Sigma_c|-\cfrac{1}{2}(x_i-\mu_c)^T\Sigma_c^{-1}(x_i-\mu_c)\}\\ &=-\cfrac{Nd}{2}ln(2\pi)-\cfrac{N}{2}ln|\Sigma_c|-\cfrac{1}{2}\Sigma_{i=1}^{N}(x_i-\mu_c)^T\Sigma_c^{-1}(x_i-\mu_c) \end{aligned}\tag{式11}$
由于参数 $\theta_c$ 的极大似然估计 $\hat{\theta}_c$ 为;
$\hat{\theta}_c=\argmin\limits_{\theta_c}LL(\theta_c)\tag{式12}$
所以下面只需求出使得对数似然函数 $LL(\theta_c)$ 取到最大值的 $\hat{\mu}_c$ 和 $\hat{\sum}_c$ ,就求出了 $\hat{\theta}_c$ 。
对 $LL(\theta_c)$ 关于 $\mu_c$ 求偏导：
$\begin{aligned} \cfrac{\partial{LL(\theta_c)}}{\partial{\mu_c}}&=\cfrac{\partial}{\partial{\mu_c}}[-\cfrac{Nd}{2}ln(2\pi)-\cfrac{N}{2}ln|\Sigma_c|-\cfrac{1}{2}\sum_{i=1}^{N}(x_i-\mu_c)^T\Sigma_c^{-1}(x_i-\mu_c)]\\ &=\cfrac{\partial}{\partial{\mu_c}}[-\cfrac{1}{2}\sum_{i=1}^{N}(x_i-\mu_c)^T\Sigma_c^{-1}(x_i-\mu_c)]]\\ &=-\cfrac{1}{2}\sum_{i=1}^{N}\cfrac{\partial}{\partial{\mu_c}}[(x_i-\mu_c)^T\Sigma_c^{-1}(x_i-\mu_c)]\\ &=-\cfrac{1}{2}\sum_{i=1}^{N}\cfrac{\partial}{\partial{\mu_c}}[(x_i^T-\mu_c^T)\Sigma_c^{-1}(x_i-\mu_c)]\\ &=-\cfrac{1}{2}\sum_{i=1}^{N}\cfrac{\partial}{\partial{\mu_c}}[(x_i^T-\mu_c^T)(\Sigma_c^{-1}x_i-\Sigma_c^{-1}\mu_c)]\\ &=-\cfrac{1}{2}\sum_{i=1}^{N}\cfrac{\partial}{\partial{\mu_c}}[x_i^T\Sigma_c^{-1}x_i-x_i^T\Sigma_c^T\mu_c-\mu_c^T\Sigma_c^{-1}x_i+\mu_c^T\Sigma_c^{-1}\mu_c] \end{aligned}\tag{式13}$
由于 $x_i^T\Sigma_c^{-1}\mu_c$ 的计算结果为标量，所以有:
$x_i^T\Sigma_c^{-1}\mu_c=(x_i^T\Sigma_c^{-1}\mu_c)^T=\mu_c^T(\Sigma_c^{-1})^Tx_i=\mu_c^T(\Sigma_c^T)^{-1}x_i=\mu_c^T\Sigma_c^{-1}x_i\tag{式14}$
所以（式13）可以进一步化为:
$\cfrac{\partial{LL(\theta_c)}}{\partial{\mu_c}}= -\cfrac{1}{2}\sum_{i=1}^{N}\cfrac{\partial}{\partial{\mu_c}}[x_i^T\Sigma_c^{-1}x_i-2x_i^T\Sigma_c^{-1}\mu_c+\mu_c^T\Sigma_c^{-1}\mu_c]\tag{式15}$
由矩阵微分公式：
$\cfrac{\partial a^T x}{\partial x}=a,\quad \cfrac{\partial x^T \beta x}{\partial x}=(\beta+\beta^T)x\tag{式16}$
可以得到;
$\begin{aligned} \cfrac{\partial LL(\theta_c)}{\partial \mu_c}&= -\cfrac{1}{2}\sum_{i=1}^{N}[0-(2x_i^T\Sigma_c^{-1})^T+(\Sigma_c^{-1}+{\Sigma_c^{-1})}^T\mu_c]\\ &=-\cfrac{1}{2}\sum_{i=1}^{N}[-(2(\Sigma_c^{-1})^T x_i)+(\Sigma_c^{-1}+{\Sigma_c^{-1})}^T\mu_c]\\ &=-\cfrac{1}{2}\sum_{i=1}^{N}[-(2\Sigma_c^{-1}x_i)+2\Sigma_c^{-1}\mu_c]\\ &=\sum_{i=1}^{N}\Sigma_c^{-1}x_i-N\Sigma_c^{-1}\mu_c \end{aligned}\tag{式17}$
令偏导数为0，得到:
$\begin{aligned} \cfrac{\partial LL(\theta_c)}{\partial \mu_c}&=\sum_{i=1}^{N}\Sigma_c^{-1}x_i-N\Sigma_c^{-1}\mu_c=0\\ &\Longrightarrow\sum_{i=1}^{N}\Sigma_c^{-1}x_i=N\Sigma_c^{-1}\mu_c\\ &\Longrightarrow\Sigma_c^{-1}\sum_{i=1}^{N}x_i=N\Sigma_c^{-1}\mu_c\\ &\Longrightarrow N\mu_c = \sum_{i=1}^{N}x_i\\ &\Longrightarrow \mu_c = \cfrac{1}{N}\sum_{i=1}^{N}x_i \end{aligned}\tag{式18}$
同样的，对 $LL(\theta_c)$ 关于 $\Sigma_c$ 求偏导得到:
$\Sigma_c = \cfrac{1}{N}\sum_{i=1}^{N}(x_i-\mu_c)(x_i-\mu_c)^T\tag{式19}$
最小化分类错误率的贝叶斯最优分类器为:
$h^*(x)=\argmax\limits_{c\in\mathcal{Y}}P(c|x)\tag{式20}$
又由贝叶斯定理可以知道：
$P(c|x)=\cfrac{P(x,c)}{P(x)}=\cfrac{P(c)P(x|c)}{P(x)}\tag{式21}$
所以：
$h^*(x)=\argmax\limits_{c\in{\mathcal{Y}}}\cfrac{P(c)P(x|c)}{P(x)}=\argmax\limits_{c\in\mathcal{Y}}P(c)P(x|c)\tag{式22}$
又由属性条件独立性假设：
$P(x_1,x_2,\cdots,x_d|c) = \prod_{i=1}^{d}P(x_i|c)\tag{式23}$
所以：
$h^*(x)=\argmax\limits_{c\in\mathcal{Y}}P(c)\prod_{i=1}^{d}P(x_i|c)\tag{式24}$
这个就是朴素贝叶斯分类器的表达式。
对于 $P (c)$ ,表示的是样本空间中各类样本所占的比例，根据大数定律，当训练集包含充足的度量同分布样本的时候， $P (c)$ 可以通过各类样本的频率来进行估计，即:
$P(c)=\cfrac{|D_c|}{|D|}\tag{式25}$
其中， $D$ 表示训练集， $∣ D ∣$ 表示样本数， $D_c$ 表示训练集中第 $c$ 类样本的数量组成的集合， $D_c|$ 表示集合 $D_c$ 的样本个数。

贝叶斯分类器python应用

# 导入乳腺肿瘤数据
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
# 打印处数据的keys
print(cancer.keys())

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])

# 打印数据集中的标注好的肿瘤分类
print("肿瘤的分类:",cancer['target_names'])
print("肿瘤的特征:",cancer['feature_names'])

肿瘤的分类: ['malignant' 'benign']
肿瘤的特征: ['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']

可见，肿瘤的分类分为:恶性（Malignant），良性（benign）,特征值有很多。

# 将数据集的数值和分类目标赋值给X,y
X, y = cancer.data, cancer.target
# 导入数据拆分工具
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,random_state=38)
# 查看数据形态
print("训练集形态:", X_train.shape)
print("测试集形态:", X_test.shape)

训练集形态: (426, 30)
测试集形态: (143, 30)

# 导入高斯朴素贝叶斯
from sklearn.naive_bayes import GaussianNB

# 进行拟合数据
gnb = GaussianNB()
gnb.fit(X_train, y_train)
# 打印模型得分
print("模型得分:{:.3f}".format(gnb.score(X_test, y_test)))

模型得分:0.944