第二周学习笔记

第二周学习笔记

本周的主要学习工作

1.CS229的学习(因为本身有笔记,此处仅记录一些重要的内容)

[课程地址]

第三讲,过拟合与欠拟合的概念
主要内容
  • 局部加权回归(Locally Weighted Regression)
  • 线性回归的概率解释
  • Logistic Regression
  • 感知器算法(Perceptron)
值得注意的地方
1.为什么假设误差服从高斯分布?
  • 为了方便运算
  • 根据中心极限定理,互相独立的随机变量的加和的极限分布是高斯分布,有理由假设误差是一系列相互独立的随机变量的和。
2.为什么记号中用分号将 x x x Θ \Theta Θ分开

P ( y ( i ) ∣ x ( i ) ; Θ ) P(y^{(i)}|x^{(i)};\Theta) P(y(i)x(i);Θ)

因为此处采取了频率学派的观点,用分号分开是为了表示 Θ \Theta Θ不是一个随机变量(与之对应的是贝叶斯学派观点),如果用逗号隔开
P ( y ( i ) ∣ x ( i ) , Θ ) P(y^{(i)}|x^{(i)},\Theta) P(y(i)x(i),Θ)

表明 y ( i ) y^{(i)} y(i) x ( i ) x^{(i)} x(i) Θ \Theta Θ作为条件,而被作为条件的只能是随机变量

3.感知器算法(Perceptron)

尽管感知器算法看起来和线性回归、Logistic回归一样,但他们是十分不同的算法,其中重要的一点就是感知器算法不像后者有较好的概率解释(最大似然估计)

第四讲,牛顿方法
主要内容
  • 牛顿法,几何解释
  • 指数分布族(Exponential Family),伯努利分布和正态分布都属于指数分布族
  • 广义线性模型GLM(Generalized Linear Models)
  • Softmax Regression,Logistic Regression的推广,基于多项分布
值得注意的地方
1.关于sigmoid函数

在logistic regression 中,假设数据服从伯努利分布,通过最大似然法可以得到是正类的概率,这个概率通常是由sigmoid函数计算出来的,使用sigmoid函数的原因是:
伯努利分布属于指数分布族
P ( y ; η ) = b ( y ) e x p ( η T T ( y ) − a ( η ) ) P(y;\eta)=b(y)exp(\eta^{T}T(y)-a(\eta)) P(y;η)=b(y)exp(ηTT(y)a(η))
推导过程如下

P ( y ; ϕ ) = ϕ y ( 1 − ϕ ) ( 1 − y ) = e x p ( l o g ϕ y ( 1 − ϕ ) ( 1 − y ) ) = e x p ( y l o g ϕ + ( 1 − y ) l o g ( 1 − ϕ ) ) = e x p ( l o g ϕ 1 − ϕ y + l o g ( 1 − ϕ ) ) \begin{aligned} P(y;\phi)&=\phi^{y}(1-\phi)^{(1-y)}\\ &=exp\left(log\phi^y(1-\phi)^{(1-y)}\right)\\ &=exp\left(ylog\phi+(1-y)log(1-\phi)\right)\\ &=exp\left(log\dfrac{\phi}{1-\phi}y+log(1-\phi)\right) \end{aligned} P(y;ϕ)=ϕy(1ϕ)(1y)=exp(logϕy(1ϕ)(1y))=exp(ylogϕ+(1y)log(1ϕ))=exp(log1ϕϕy+log(1ϕ))
η = l o g ϕ 1 − ϕ \eta=log\dfrac{\phi}{1-\phi} η=log1ϕϕ
可得
ϕ = 1 1 + e − η \phi=\dfrac{1}{1+e^{-\eta}} ϕ=1+eη1

第五讲 生成学习算法
主要内容
  • 判别学习算法
    1.直接学习 p ( y ∣ x ) p(y|x) p(yx)
    2.学习一个假设 h θ ( x ) h_\theta(x) hθ(x)输出{0,1}
  • 生成学习算法
    同时对 P ( x ∣ y ) P(x|y) P(xy) P ( y ) P(y) P(y)建模,使用贝叶斯公式得到 P ( y ∣ x ) P(y|x) P(yx)
  • 高斯判别分析
    假设 P ( x ∣ y ) P(x|y) P(xy)服从高斯分布,
    P ( x ∣ y ) P(x|y) P(xy)服从高斯分布 ⇒ \Rightarrow P ( y = 1 ∣ x ) P(y=1|x) P(y=1x)有logistic形式的后验分布,因此高斯判别分析有着更强的假设
  • 朴素贝叶斯(Naive Bayes)
  • 拉普拉斯平滑(Laplace smoothing)
值得注意的地方
1.高斯判别分析和Logistic回归的比较

高斯判别分析的假设更强,需要的数据量更少,但实际与假设不相符合时,效果不一定好,而Logistic回归假设若,更有鲁棒性,但需要更多数据进行拟合,当假设 P ( y = i ∣ x ) P(y=i|x) P(y=ix)服从泊松分布,gamma分布等一些指数分布族中的分布时,得到的也是Logistic形式的后验分布。
######2.为什么高斯判别分析最后呈现Logistic回归形式
p ( y = 1 ∣ x ) = p ( x ∣ y = 1 ) p ( y = 1 ) p ( x ∣ y = 1 ) p ( y = 1 ) + p ( x ∣ y = 0 ) p ( y = 0 ) = 1 2 π ∣ Σ ∣ − 1 2 e − 1 2 ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) ϕ 1 2 π ∣ Σ ∣ − 1 2 e − 1 2 ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) ϕ + 1 2 π ∣ Σ ∣ − 1 2 e − 1 2 ( x − μ 0 ) T Σ − 1 ( x − μ 0 ) ( 1 − ϕ ) = e − 1 2 ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) ϕ e − 1 2 ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) ϕ + e − 1 2 ( x − μ 0 ) T Σ − 1 ( x − μ 0 ) ( 1 − ϕ ) = 1 1 + 1 − ϕ ϕ e − 1 2 ( x − μ 0 ) T Σ − 1 ( x − μ 0 ) + 1 2 ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) = 1 1 + e ( μ 0 − μ 1 ) T Σ − 1 x + 1 2 μ 1 T Σ − 1 μ 1 − 1 2 μ 0 T Σ − 1 μ 0 + l n 1 − ϕ ϕ \begin{aligned} p(y=1|x)&=\dfrac{p(x|y=1)p(y=1)}{p(x|y=1)p(y=1)+p(x|y=0)p(y=0)}\\ &=\dfrac{\dfrac{1}{\sqrt{2\pi}|\Sigma|^{-\frac{1}{2}}}e^{-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)}\phi}{\dfrac{1}{\sqrt{2\pi}|\Sigma|^{-\frac{1}{2}}}e^{-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)}\phi+\dfrac{1}{\sqrt{2\pi}|\Sigma|^{-\frac{1}{2}}}e^{-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0)}(1-\phi)}\\ &=\dfrac{e^{-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)}\phi}{e^{-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)}\phi+e^{-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0)}(1-\phi)}\\ &=\dfrac{1}{1+\dfrac{1-\phi}{\phi}e^{-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0)+\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)}}\\ &=\dfrac{1}{1+e^{(\mu_0-\mu_1)^T\Sigma^{-1}x+\frac{1}{2}\mu_1^T\Sigma^{-1}\mu_1-\frac{1}{2}\mu_0^T\Sigma^{-1}\mu_0+ln\frac{1-\phi}{\phi}}}\\ \end{aligned} p(y=1x)=p(xy=1)p(y=1)+p(xy=0)p(y=0)p(xy=1)p(y=1)=2π Σ211e21(xμ1)TΣ1(xμ1)ϕ+2π Σ211e21(xμ0)TΣ1(xμ0)(1ϕ)2π Σ211e21(xμ1)TΣ1(xμ1)ϕ=e21(xμ1)TΣ1(xμ1)ϕ+e21(xμ0)TΣ1(xμ0)(1ϕ)e21(xμ1)TΣ1(xμ1)ϕ=1+ϕ1ϕe21(xμ0)TΣ1(xμ0)+21(xμ1)TΣ1(xμ1)1=1+e(μ0μ1)TΣ1x+21μ1TΣ1μ121μ0TΣ1μ0+lnϕ1ϕ1
e e e的指数中,右三个式子可以看做Logistic回归中的常数项

3.朴素贝叶斯中的假设

仅仅假设了各个属性条件独立而非独立

2.实验

Logistic Regression

[代码在这]

实验目标:学习Logistic Regression的梯度下降和牛顿解法
实验数据:随机生成的两类样本点
实验过程

  • 给定一条直线,随机生成1000个样本点,位于直线一侧标记为正样本,另一侧标记为负样本,并将其中10%的样本标记取反。
  • 使用梯度下降优化损失函数
  • 使用牛顿法优化损失函数

实验结果
牛顿法在第三轮迭代时就收敛了,而梯度下降法在400轮左右才收敛,说明牛顿法是更加高效的优化算法。
实验中遇到的问题

  • 计算Hessian矩阵求导错误
  • 使用批梯度下降法忘记按样本数对梯度求平均

本周工作中的问题

学习内容不够丰富

下周的目标

完成softmax、朴素贝叶斯模型的实验,完成5课CS229的学习

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值