(系列笔记)3.有监督学习——朴素贝叶斯分类器(2)

朴素贝叶斯分类器——条件概率的参数估计

1、朴素贝叶斯公式


符号说明:

符号 含义
D 训练集
D c D_c Dc 训练集中最终分类结果为c的那部分样本的集和
X 单个训练样本
x i ( j ) x_i^{(j)} xi(j) 第j个样本的第i个特征的特征值
m D中样本的个数
m c m_c mc D c D_c Dc中样本的个数,一般情况下( m c m_c mc<m)

然后假设:
1、 P ( x i ∣ c ) P(x_i|c) P(xic)具有特定的形式,这个具体的形式是先验知识。
2、 P ( x i ∣ c ) P(x_i|c) P(xic)被参数 θ c , i θ_{c,i} θc,i唯一确定。
例如:
P ( x i ∣ c ) P(x_i|c) P(xic)符合高斯分布,则\mu公式其中 μ c , i \mu_{c,i} μc,i σ c , i \sigma_{c,i} σc,i分别表示均值和方差,也就是说
θ c , i \theta_{c,i} θc,i=( μ c , i \mu_{c,i} μc,i , σ c , i \sigma_{c,i} σc,i):
在这里插入图片描述

目的:利用D求出 θ c , i θ_{c,i} θc,i的值,即利用D为训练数据,得到参数,这个过程用到了概率统计中参数估计的方法。
(这东西怎么缩进啊。。。)

2、关于学派的插曲(与内容无关)

统计学界有两个学派——频率学派(Frequentist)和贝叶斯学派(Bayesian)。这两个派系对于最基本的问题——世界的本质是什么样的——看法不同。

频率学派认为:世界是确定的,有一个本体,这个本体的真值不变。我们的目标就是要找到这个真值或真值所在的范围。具体到“求正态分布的参数值”的问题,他们认为:这两个参数虽然未知,但是在客观上存在固定值,我们要做的是通过某种准则,根据观察数据(训练数据)把这些参数值确定下来。

贝叶斯学派认为:世界是不确定的,本体没有确定真值,而是其真值符合一个概率分布。我们的目标是找到最优的,可以用来描述本体的概率分布。具体到“求正态分布的参数值”的问题,他们认为:这两个参数(均值和方差),本身也是变量,也符合某个分布。因此,可以假定参数服从一个先验分布,然后再基于观察数据(训练数据)来计算参数的后验分布。

3、极大似然估计(Maximum Likelihood Estimation,MLE)

参数估计的常用策略是:
1、先假定样本特征具备某种特定的概率分布形式;
2、再基于训练样本对特征的概率分布参数进行估计;

首先解释一下似然:指某种事件发生的可能,和概率相似,区别在于,概率用在已知参数的情况下,用来预测后续观测所得到的结果;似然则正好相反,用于参数未知,但某些观测所的结果已知的情况下,用来对参数进行估计。

参数 θ c , i \theta_{c,i} θc,i的似然函数记成 L ( θ c , i ) L(\theta_{c,i}) L(θc,i),表示 D c D_{c} Dc中的 m c m_{c} mc各个样本 X 1 X_{1} X1

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值