（系列笔记）3.有监督学习——朴素贝叶斯分类器（2）

最新推荐文章于 2023-10-08 11:24:59 发布

VIP文章 WNotSyer

最新推荐文章于 2023-10-08 11:24:59 发布

阅读量549

点赞数 1

分类专栏： Machine Learning 文章标签：笔记

本文链接：https://blog.csdn.net/qq_41909317/article/details/88324052

版权

朴素贝叶斯分类器——条件概率的参数估计

1、朴素贝叶斯公式

符号说明：

符号	含义
D	训练集
$D_c$	训练集中最终分类结果为c的那部分样本的集和
X	单个训练样本
$x_i^{(j)}$	第j个样本的第i个特征的特征值
m	D中样本的个数
$m_c$	$D_c$ 中样本的个数，一般情况下（ $m_c$ <m）

然后假设：
1、 $P(x_i|c)$ 具有特定的形式，这个具体的形式是先验知识。
2、 $P(x_i|c)$ 被参数 $θ_{c,i}$ 唯一确定。
例如：
$P(x_i|c)$ 符合高斯分布，则\mu公式其中 $\mu_{c,i}$ 和 $\sigma_{c,i}$ 分别表示均值和方差，也就是说
$\theta_{c,i}$ =( $\mu_{c,i}$ , $\sigma_{c,i}$ )：
在这里插入图片描述

目的：利用D求出 $θ_{c,i}$ 的值，即利用D为训练数据，得到参数，这个过程用到了概率统计中参数估计的方法。
（这东西怎么缩进啊。。。）

2、关于学派的插曲（与内容无关）

统计学界有两个学派——频率学派（Frequentist）和贝叶斯学派（Bayesian）。这两个派系对于最基本的问题——世界的本质是什么样的——看法不同。

频率学派认为：世界是确定的，有一个本体，这个本体的真值不变。我们的目标就是要找到这个真值或真值所在的范围。具体到“求正态分布的参数值”的问题，他们认为：这两个参数虽然未知，但是在客观上存在固定值，我们要做的是通过某种准则，根据观察数据（训练数据）把这些参数值确定下来。

贝叶斯学派认为：世界是不确定的，本体没有确定真值，而是其真值符合一个概率分布。我们的目标是找到最优的，可以用来描述本体的概率分布。具体到“求正态分布的参数值”的问题，他们认为：这两个参数（均值和方差），本身也是变量，也符合某个分布。因此，可以假定参数服从一个先验分布，然后再基于观察数据（训练数据）来计算参数的后验分布。

3、极大似然估计（Maximum Likelihood Estimation，MLE）

参数估计的常用策略是：
1、先假定样本特征具备某种特定的概率分布形式；
2、再基于训练样本对特征的概率分布参数进行估计；

首先解释一下似然：指某种事件发生的可能，和概率相似，区别在于，概率用在已知参数的情况下，用来预测后续观测所得到的结果；似然则正好相反，用于参数未知，但某些观测所的结果已知的情况下，用来对参数进行估计。

参数 $\theta_{c,i}$ 的似然函数记成 $L(\theta_{c,i})$ ，表示 $D_{c}$ 中的 $m_{c}$ 各个样本 $X_{1}$

最低0.47元/天解锁文章

WNotSyer

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
（系列笔记）3.有监督学习——朴素贝叶斯分类器（2）

朴素贝叶斯分类器——条件概率的参数估计1、朴素贝叶斯公式符号说明：符号含义D训练集DcD_cDc训练集中最终分类结果为c的那部分样本的集和X单个训练样本xi(j)x_i^{(j)}xi(j)第j个样本的第i个特征的特征值mD中样本的个数mcm_cmcDcD_cDc中样本的个数，一般情况下（mcm_cmc&amp;amp;amp;lt;m）...
复制链接

扫一扫