生成学习算法(Generative Learning algorithms)

看了一下斯坦福大学公开课:机器学习教程(吴恩达教授),记录了一些笔记,写出来以便以后有用到。笔记如有误,还望告知。
本系列其它笔记:
线性回归(Linear Regression)
分类和逻辑回归(Classification and logistic regression)
广义线性模型(Generalized Linear Models)
生成学习算法(Generative Learning algorithms)

生成学习算法(Generative Learning algorithms)

之前我们学习的算法 p ( y ∣ x ; θ ) p(y|x;\theta) p(yx;θ)给定x的y的条件分布,我们称之为判别学习算法(discriminative learning algorithms);现在我们学习相反的算法 p ( x ∣ y ) ( p ( y ) ) p(x|y)(p(y)) p(xy)(p(y)),称之为生成学习算法(generative
learning algorithms)。

使用贝叶斯定理,我们可以得到给定x后y的分布:
p ( y ∣ x ) = p ( x ∣ y ) p ( y ) p ( x ) p ( x ) = p ( x ∣ y = 1 ) p ( y = 1 ) + p ( x ∣ y = 0 ) p ( y = 0 ) p(y|x) = \frac{p(x|y)p(y)}{p(x)} \\p(x) = p(x|y = 1)p(y = 1) + p(x|y = 0)p(y = 0) p(yx)=p(x)p(xy)p(y)p(x)=p(xy=1)p(y=1)+p(xy=0)p(y=0)

1 高斯判别分析(Gaussian discriminant analysis)

1.1 多元高斯分布(多元正态分布)

假设输入特征 x ∈ R n x \in \R^n xRn,且是连续的;p(x|y)满足高斯分布。

假设z符合多元高斯分布 z ∽ N ( μ ⃗ , Σ ) z \backsim\mathcal{N}(\vec\mu,\Sigma) zN(μ ,Σ)
p ( z ) = 1 ( 2 π ) n 2 ∣ Σ ∣ 1 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(z) = \frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}\exp(-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)) p(z)=(2π)2nΣ211exp(21(xμ)TΣ1(xμ))

1.2 高斯判别分析模型(The Gaussian Discriminant Analysis model)

y ∽ B e r n o u l l i ( ϕ ) x ∣ y = 0 ∽ N ( μ 0 , Σ ) x ∣ y = 1 ∽ N ( μ 1 , Σ ) p ( y ) = ϕ y ( 1 − ϕ ) 1 − y p ( x ∣ y = 0 ) = 1 ( 2 π ) n 2 ∣ Σ ∣ 1 2 exp ⁡ ( − 1 2 ( x − μ 0 ) T Σ − 1 ( x − μ 0 ) ) p ( x ∣ y = 1 ) = 1 ( 2 π ) n 2 ∣ Σ ∣ 1 2 exp ⁡ ( − 1 2 ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) ) y \backsim Bernoulli(\phi) \\x|y = 0 \backsim\mathcal{N}(\mu_0,\Sigma) \\x|y = 1 \backsim\mathcal{N}(\mu_1,\Sigma) \\p(y) = \phi^{y}(1-\phi)^{1-y} \\p(x|y = 0) = \frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}\exp(-\frac{1}{2}(x-\mu_0)^{T}\Sigma^{-1}(x-\mu_0)) \\p(x|y = 1) = \frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}\exp(-\frac{1}{2}(x-\mu_1)^{T}\Sigma^{-1}(x-\mu_1)) yBernoulli(ϕ)xy=0N(μ0,Σ)xy=1N(μ1,Σ)p(y)=ϕy(1ϕ)1yp(xy=0)=(2π)2nΣ211exp(21(xμ0)TΣ1(xμ0))p(xy=1)=(2π)2nΣ211exp(21(xμ1)TΣ1(xμ1))

ℓ ( ϕ , μ 0 , μ 1 , Σ ) = log ⁡ ∏ i = 1 m p ( x ( i ) , y ( i ) ; ϕ , μ 0 , μ 1 , Σ ) = log ⁡ ∏ i = 1 m p ( x ( i ) ∣ y ( i ) ; μ 0 , μ 1 , Σ ) ⋅ p ( y ( i ) ; ϕ ) → j o i n t   L i k e l i h o o d = ∑ i = 1 m ( log ⁡ p ( x ( i ) ∣ y ( i ) ; μ 0 , μ 1 , Σ ) + log ⁡ p ( y ( i ) ; ϕ ) ) \ell(\phi,\mu_0,\mu_1,\Sigma) = \log\prod_{i=1}^{m}p(x^{(i)},y^{(i)};\phi,\mu_0,\mu_1,\Sigma) \\ = \log\prod_{i=1}^{m}p(x^{(i)}|y^{(i)};\mu_0,\mu_1,\Sigma)\cdot p(y^{(i)};\phi) \rightarrow joint \ Likelihood \\ = \sum_{i=1}^{m}(\log p(x^{(i)}|y^{(i)};\mu_0,\mu_1,\Sigma)+ \log p(y^{(i)};\phi)) (ϕ,μ0,μ1,Σ)=logi=1mp(x(i),y(i);ϕ,μ0,μ1,Σ)=logi=1mp(x(i)y(i);μ0,μ1,Σ)p(y(i);ϕ)joint Likelihood=i=1m(logp(x(i)y(i);μ0,μ1,Σ)+logp(y(i);ϕ))

∂ ∂ ϕ ℓ ( ϕ , μ 0 , μ 1 , Σ ) = ∂ ∂ ϕ ∑ i = 1 m ( log ⁡ p ( x ( i ) ∣ y ( i ) ; μ 0 , μ 1 , Σ ) + log ⁡ p ( y ( i ) ; ϕ ) ) = ∑ i = 1 m ∂ ∂ ϕ log ⁡ p ( y ( i ) ; ϕ ) = ∑ i = 1 m ∂ ∂ ϕ ( y ( i ) log ⁡ ( ϕ ) + ( 1 − y ( i ) ) log ⁡ ( 1 − ϕ ) ) = ∑ i = 1 m ( y ( i ) − ϕ ϕ ( 1 − ϕ ) ) 令   ∂ ∂ ϕ ℓ ( ϕ , μ 0 , μ 1 , Σ ) = 0 ⇒ ϕ = ∑ i = 1 m y ( i ) m = 1 m ∑ i = 1 m 1 { y ( i ) = 1 } \left.\frac{\partial}{\partial\phi}\right.\ell(\phi,\mu_0,\mu_1,\Sigma) = \left.\frac{\partial}{\partial\phi}\right.\sum_{i=1}^{m}(\log p(x^{(i)}|y^{(i)};\mu_0,\mu_1,\Sigma)+ \l

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值