机器学习 之 作业3

实际上就是在求朴素贝叶斯的参数估计而已。

X X X连续的情况
P ( X i ∣ Y i , θ ) = ∏ k = 1 K N ( Y i ∣ μ R , Σ R ) I { y i = k } P(X_i|Y_i,\theta)=\prod^K_{k=1}N(Y_i|\mu_R,\Sigma_R)^{I\{y_i=k\}} P(XiYi,θ)=k=1KN(YiμR,ΣR)I{yi=k}
仅仅是在说明是相互独立的而已,下面也是在说相互独立而已,这里只是在体现相互独立性。
在这里插入图片描述

什么意思呢?实际上,期望就是期望,我们不是要求它特定值,而是借助求它最大值的时候,求出 θ \theta θ来。期望最重要的是它的式子,求 y y y的最大值(高斯分布性质决定)就是直接的概率公式求最大值就可以了,求 x x x的最大值(代表它是最应该挑选出来的,是事实根据),它的概率公式是
X X X离散的情况
y i y_i yi更像什么?实际上是分类,如果二分类的话则 P ( y i ) = ϕ y i ( 1 − ϕ ) 1 − y i P(y_i)=\phi^{y_i}(1-\phi)^{1-y_i} P(yi)=ϕyi(1ϕ)1yi( i ∈ { 0 , 1 } i\in\{0,1\} i{0,1}),这就是 y i y_i yi的描述公式。每个分类都有一个描述公式,这里 y i y_i yi表示属于某一类, x i x_i xi表示输入值(一只羊的特征)。
P ( D ∣ θ ) = ∏ i = 1 n P ( x i , y i ∣ θ ) = ∏ i = 1 n P ( y i ) P ( x i ∣ y i ) = ∏ i = 1 n ( ϕ y i ( 1 − ϕ ) 1 − y i ) × ∏ j = 1 d ∏ k = 1 K ( ϕ k j x i j ( 1 − ϕ k j ) 1 − x i j ) I { y i = k } P(D|\theta)=\prod^n_{i=1}P(x_i,y_i|\theta)=\prod^n_{i=1}P(y_i)P(x_i|y_i)\\ =\prod^n_{i=1}(\phi^{y_i}(1-\phi)^{1-y_i})\times\prod^d_{j=1}\prod^K_{k=1}(\phi^{x_{ij}}_{kj}(1-\phi_{kj})^{1-x_{ij}})^{I\{y_i=k\}} P(Dθ)=i=1nP(xi,yiθ)=i=1nP(yi)P(xiyi)=i=1n(ϕyi(1ϕ)1yi)×j=1dk=1K(ϕkjxij(1ϕkj)1xij)I{yi=k}
求出 ϕ k j x i j \phi^{x_{ij}}_{kj} ϕkjxij

P ( D ∣ θ ) P(D|\theta) P(Dθ)这个(数据,标签)在当前条件下的概率值, θ \theta θ就是 ϕ \phi ϕ,之所以不见了 θ \theta θ是因为它变成了 ϕ \phi ϕ

我在求什么呢?

P ( y ∣ x , θ ) P(y|x,\theta) P(yx,θ)才是最正常的,emmm
似然(likelihood)和概率(probability)
概率是给定 θ = θ 1 \theta=\theta_1 θ=θ1 X = x X=x X=x的可能性,就是给定参数后的正常公式啊。这时候肯定确定参数 θ \theta θ了。说算 X X X的概率分布也不算是错。
似然是给定样本 X = x X=x X=x下参数 θ = θ 1 \theta=\theta_1 θ=θ1的可能性,
通常在概率统计学中 X \textbf{X} X代表的是随机变量,而小写形式 x x x通常代表其具体取值. 假定 X X X服从二项分布(也可以是任何其他分布), 则可以写成 X ∼ B ( n , p ) X ∼ B ( n , p ) XB(n,p), 而该二项分布情况下, 6次试验下 x x x的取值可以是"010011",而 X X X表示其中的某一个。可以发现6次试验中,"1"出现了三次,那么这种情况下p取值为"1/2"是可能性最大的,即最接近 θ \theta θ的真实分布。

似然函数可以看做是同一个函数形式下的不同视角,因为概率方程都是同一个。 X X X θ \theta θ相互转换,但关键是, θ \theta θ是一个固定值, X X X是一个随机变量。 X X X是样本, θ \theta θ是最大似然值。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
概率与似然用的是同一个概率公式,不同之处在于概率直接算出最后结果,似然要对概率求导等于0后求出似然值。
因此,似然函数实际上是 L ( θ ∣ x ) L(\theta|x) L(θx),概率密度函数实际上是 f ( x ∣ θ ) f(x|\theta) f(xθ)

那么 y y y是什么呢?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值