机器学习(五)朴素贝叶斯

拉格朗日乘子法 Lagrange Multiplier

举个栗子:
假如有方程 x 2 y = 3 x^2y=3 x2y=3
是下图等高线中的一条:

在这里插入图片描述
梯度向量:
在这里插入图片描述

在这里插入图片描述

我们相求上面的点到原点的最短距离;
引入同心圆,可以看做函数 f ( x , y ) = x 2 + y 2 f(x,y) = x^2 + y^2 f(x,y)=x2+y2的等高线
在这里插入图片描述
这是等高线的发线:
在这里插入图片描述

在这里插入图片描述
在圆与曲线相切的时候,梯度向量平行;
要求函数 f 在 g 约束下的极值问题:
m i n m a x f s . t . g = 0 minmax f \\ s.t. g = 0 minmaxfs.t.g=0
可以列出方程求解:
{ ▽ f = λ ▽ g g = 0 \left\{\begin{matrix} \triangledown f = \lambda\triangledown g\\ g=0 \end{matrix}\right. {f=λgg=0

多个约束条件
在这里插入图片描述
在这里插入图片描述
另一个栗子:
在这里插入图片描述

朴素贝叶斯 Naive Bayes

重要的假设

朴素贝叶斯对条件概率分布做了条件独立性的假设。由于这是一个较强的假设,朴素贝叶斯也因此得名,具体的,条件独立性假设如下:
P ( X = x ∣ Y = y ) = P ( X 1 = x 1 , X 2 = x 2 , . . . , X n = x n ∣ Y = y ) = ∏ j = 1 n P ( X j = x j ∣ Y = y ) P(X=x|Y=y) = P(X1=x1,X2 = x2,...,Xn=xn|Y=y) = \prod_{j=1}^nP(Xj=xj | Y=y) P(X=xY=y)=P(X1=x1,X2=x2,...,Xn=xnY=y)=j=1nP(Xj=xjY=y)

则有以下结论:
P ( Y = y , X 1 = x 1 , X 2 = x 2 , . . . , X n = x n ) = P ( Y = y ) ∏ i = 1 n P ( X j = x j ∣ Y = y ) = p Y ( y ) ∏ j = 1 n p X j ∣ Y ( x j ∣ y ) P(Y=y,X1=x1,X2=x2,...,Xn=xn) = P(Y=y)\prod_{i=1}^nP(Xj=xj|Y=y)\\ =p_Y(y)\prod_{j=1}^np_{X_j | Y}(x_j | y) P(Y=y,X1=x1,X2=x2,...,Xn=xn)=P(Y=y)i=1nP(Xj=xjY=y)=pY(y)j=1npXjY(xjy)

省略下标的形式
P ( Y = y , X 1 = x 1 , . . . , X n = x n ) = p ( y ) ∏ j = 1 n p j ( x j ∣ y ) P(Y=y,X1=x1,...,Xn=xn) = p(y)\prod_{j=1}^np_j(x_j|y) P(Y=y,X1=x1,...,Xn=xn)=p(y)j=1npj(xjy)

应用极大似然估计估计相应概率

p ( y ) = c o u n t ( y ) m = ∑ i = 1 m 1 ( y ( i ) = y ) m , ∀ y p(y) =\frac{ count(y)}{m} = \frac{\sum_{i=1}^m \mathbb{1}(y^{(i)} = y)}{m}, \forall y p(y)=mcount(y)=mi=1m1(y(i)=y),y
p j ( x ∣ y ) = c o u n t j ( x ∣ y ) c o u n t ( u = y ) = ∑ i = 1 m 1 ( y ( i ) = y ∧ x ( i ) = x ) ∑ i = 1 m 1 ( y ( i ) = y ) p_j(x|y) = \frac{ count_j(x | y)}{count(u=y)} = \frac{\sum_{i=1}^m \mathbb{1}(y^{(i)} = y \wedge x^{(i)} = x)}{\sum_{i=1}^m \mathbb{1}(y^{(i)} = y )} pj(xy)=count(u=y)countj(xy)=i=1m1(y(i)=y)i=1m1(y(i)=yx(i)=x)

朴素贝叶斯分类器

y = f ( x ) = arg ⁡ max ⁡ c k P ( Y = c k ) ∏ j P ( X j = x j ∣ Y = c k ) ∑ k P ( Y = c k ) ∏ j P ( X j = x j ∣ Y = c k ) y = f(x) = \arg\max_{ck} \frac{P(Y=ck)\prod_j P(X_j = x_j|Y=ck)}{\sum_kP(Y=ck)\prod_jP(X_j = x_j | Y = ck)} y=f(x)=argckmaxkP(Y=ck)jP(Xj=xjY=ck)P(Y=ck)jP(Xj=xjY=ck)

由于分母都时相同的,因此
y = arg ⁡ max ⁡ c k P ( Y = c k ) ∏ j P ( X j = x j ∣ Y = c k ) y = \arg\max_{ck} P(Y=ck)\prod_j P(X_j = x_j|Y=ck) y=argckmaxP(Y=ck)jP(Xj=xjY=ck)

拉普拉斯平滑

用极大似然估计会出现要估计概率为0的情况,或者0/0的情况,是的后验概率出现偏差。
使用拉普拉斯平滑
在这里插入图片描述
k 是y有多少种可能的取值, v j v_j vj是第j个feature有多少种可能的取值

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值