机器学习数学语言学习报告:第三天

累加、累乘与积分作业

  1. ∑ i m o d    2 = 0 x i \sum_{i\mod2 =0}x_i imod2=0xi

  2. 问:求向量 X \textbf{X} X中非负分量的加权和,权重向量 W \textbf{W} W​非负

    答: ∑ x i ≥ 0 w i x i \sum_{x_i \geq 0}w_i x_i xi0wixi

    问:将上式变为累乘形式

    答: ln ⁡ ∏ x i ≥ 0 e w i x i \ln\prod_{x_i \geq 0} \mathrm{e}^{w_ix_i} lnxi0ewixi

    问:​​​​​求真实概率分布 P P P与近似概率分布 Q Q Q的KL散度

    答: D K L ( P ∥ Q ) = ∫ − ∞ ∞ p ( x ) ln ⁡ p ( x ) q ( x )   d x \displaystyle D_{\mathrm {KL} }(P\|Q)=\int _{-\infty }^{\infty }p(x)\ln {\frac {p(x)}{q(x)}}\,{\rm {d}}x DKL(PQ)=p(x)lnq(x)p(x)dx

  3. 三重累加的常用于计算三维张量的和,如图像的各类归一化方法(Batch Norm、Layer Norm 和 Group Norm)中求均值和方差的过程。

  4. 定积分 ∫ 0 π x sin ⁡ x   d x = π \int_0^\pi x \sin x \, \mathrm{d} x=\pi 0πxsinxdx=π​​​的python求解程序为:

    import math
    delta = 0.01
    sum([x * math.sin(x) * delta for x in [i * delta for i in range(int(math.pi / delta))]])
    

    结果为3.141537512485255,误差小于1e-5。

线性回归作业

  1. 最小二乘法例子

    令函数 y = 3 x + 5 y=3x+5 y=3x+5 x x x取1,4,5, y ^ \hat{y} y^的取值分别为9,16,19。

    建立线性模型 y ^ = f ( x ) = a x + b \hat{y} = f(x) = ax+b y^=f(x)=ax+b,使用最小二乘法求系数 a a a b b b​。

    a = ∑ i = 1 3 x i y ^ i − 3 x ‾ y ‾ ∑ i = 1 3 x i 2 − 3 x ‾ 2 ≈ 3.02 a=\frac{\sum^3_{i=1}x_i\hat{y}_i-3\overline{x}\overline{y}}{\sum_{i=1}^3x_i^2-3\overline{x}^2} \approx3.02 a=i=13xi23x2i=13xiy^i3xy3.02​​

    b = y ‾ − a x ‾ ≈ 4.59 b=\overline{y}-a\overline{x}\approx4.59 b=yax4.59

  2. 岭回归推导

    优化目标为 arg ⁡ min ⁡ L ( w ) = arg ⁡ min ⁡ w ∥ X w − Y ∥ 2 2 + λ ∥ w ∥ 2 2 \arg\min{\mathcal{L}(\mathbf{w})}= \underset{\mathbf{w}}{{\arg\min}}\|\mathbf{X}\mathbf{w}-\mathbf{Y}\|^2_2+\lambda\|\mathbf{w}\|^2_2 argminL(w)=wargminXwY22+λw22

    L ( w ) = ( X w − Y ) T ( X w − Y ) + λ w T w = w T X T X w − Y T X w − w T X T Y + Y T + Y T Y + λ w T w \mathcal{L}(\mathbf{w})=(\mathbf{X}\mathbf{w}-\mathbf{Y})^{\mathsf{T}}(\mathbf{X}\mathbf{w}-\mathbf{Y})+\lambda \mathbf{w}^{\mathsf{T}}\mathbf{w}=\mathbf{w}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{Y}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{w}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{Y}+\mathbf{Y}^{\mathsf{T}}+\mathbf{Y}^{\mathsf{T}}\mathbf{Y}+\lambda \mathbf{w}^{\mathsf{T}} \mathbf{w} L(w)=(XwY)T(XwY)+λwTw=wTXTXwYTXwwTXTY+YT+YTY+λwTw

    即令 ∂ L ∂ w = 2 X T X w − X T Y − X T Y − 2 λ w = X T X w − X T Y − λ w = 0 \frac{\partial\mathcal{L}}{\partial\mathbf{w}}=2\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{X}^{\mathsf{T}}\mathbf{Y}-\mathbf{X}^{\mathsf{T}}\mathbf{Y}-2\lambda\mathbf{w}=\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{X}^{\mathsf{T}}\mathbf{Y}-\lambda\mathbf{w}=0 wL=2XTXwXTYXTY2λw=XTXwXTYλw=0

    因此 w = ( X T X + λ I ) − 1 X T Y \mathbf{w}=(\mathbf{X}^{\mathsf{T}}\mathbf{X}+\lambda\mathbf{I})^{-1}\mathbf{X}^{\mathsf{T}}\mathbf{Y} w=(XTX+λI)1XTY

Logistic 回归推导

x \textbf{x} x为输入, w \textbf{w} w为学习参数, y y y类别标签,使用sigmoid函数分类概率有
P ( y = 1 ∣ x ; w ) = 1 1 + e − x w P(y = 1 \vert \mathbf {x}; \mathbf {w}) = \frac {1}{1 + e^{-\mathbf {xw}}} P(y=1x;w)=1+exw1
统一 y i y_i yi的不同取值(0 或 1):
P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 1 ∣ x i ; w ) ) 1 − y i P\left(y_{i} \vert \mathbf{x}_{i} ; \mathbf{w}\right)=P\left(y_{i}=1 \vert\mathbf{x}_{i} ; \mathbf{w}\right)^{y_{i}}\left(1-P\left(y_{i}=1 \vert\mathbf{x}_{i} ; \mathbf{w}\right)\right)^{1-y_{i}} P(yixi;w)=P(yi=1xi;w)yi(1P(yi=1xi;w))1yi
若数据共有 n n n个,总的概率为各个概率的乘积,即
P a l l = P ( y 1 ∣ x 1 ; w ) P ( y 2 ∣ x 2 ; w ) P ( y 3 ∣ x 3 ; w ) … P ( y n ∣ x n ; w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) \begin{aligned} &P_{all}=P\left(y_{1} \vert \boldsymbol{x}_{1}; \mathbf{w}\right) P\left(y_{2} \vert \boldsymbol{x}_{2}; \mathbf{w}\right) P\left(y_{3} \vert \boldsymbol{x}_{3}; \mathbf{w}\right) \ldots P\left(y_{n} \vert \boldsymbol{x}_{n}; \mathbf{w}\right) \\ &=\prod_{i=1}^{n} P(y_i \vert \mathbf{x}_i; \mathbf{w}) \end{aligned} Pall=P(y1x1;w)P(y2x2;w)P(y3x3;w)P(ynxn;w)=i=1nP(yixi;w)优化目标为最大化上式
arg ⁡ max ⁡ w L ( w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) \underset{\mathbf{w}}{\arg \max } L(\mathbf{w})=\prod_{i=1}^{n} P\left(y_{i} \vert\mathbf{x}_{i} ; \mathbf{w}\right) wargmaxL(w)=i=1nP(yixi;w)
可以通过两边取对数来把连乘变成连加,从而简化运算:
log ⁡ L ( w ) = ∑ i = 1 n log ⁡ P ( y i ∣ x i ; w ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i x i w − log ⁡ ( 1 + e x i w ) \begin {aligned}\log L (\mathbf {w}) & = \sum_{i = 1}^n \log P (y_i \vert \mathbf {x}i; \mathbf{w}) \\ & = \sum_{i = 1}^n y_i \log P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w}) + (1 - y_i) \log(1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})) \\ & = \sum_{i = 1}^n y_i \log \frac{P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})}{1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})} + \log (1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w}))\\& = \sum_{i = 1}^n y_i \mathbf{x}_i \mathbf{w} - \log (1 + e^{\mathbf{x}_i \mathbf{w}}) \end{aligned} logL(w)=i=1nlogP(yixi;w)=i=1nyilogP(yi=1xi;w)+(1yi)log(1P(yi=1xi;w))=i=1nyilog1P(yi=1xi;w)P(yi=1xi;w)+log(1P(yi=1xi;w))=i=1nyixiwlog(1+exiw)
w \textbf{w} w求偏导得:
∂ log ⁡ L ( w ) ∂ w = ∑ i = 1 n y i x i − e x i w 1 + e x i w x i = ∑ i = 1 n ( y i − e x i w 1 + e x i w ) x i \begin {aligned} \frac {\partial \log L (\mathbf {w})}{\partial \mathbf {w}} & = \sum_{i = 1}^n y_i \mathbf {x}_i - \frac {e^{\mathbf {x}_i \mathbf {w}}}{1 + e^{\mathbf {x}_i \mathbf {w}}} \mathbf {x}_i\\ & = \sum_{i = 1}^n \left(y_i - \frac{e^{\mathbf{x}_i \mathbf{w}}}{1 + e^{\mathbf{x}_i \mathbf{w}}}\right) \mathbf{x}_i\end{aligned} wlogL(w)=i=1nyixi1+exiwexiwxi=i=1n(yi1+exiwexiw)xi
令偏导为0得到迭代方程:
w t + 1 = w t − α ∂ log ⁡ L ( w ) ∂ w \mathbf{w}^{t+1}=\mathbf{w}^{t}-\alpha \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} wt+1=wtαwlogL(w)
该方法的特点为

  • 名字叫回归却常用于分类问题,利用sigmoid函数对问题建模,比线性函数更符合分类问题。
  • sigmoid函数任意阶可导,具有良好的数学性质,使得方法简单易实现,许多机器学习算法都会用到该函数。
  • 模型的可解释性好,特征的权重能反映不同特征对最后结果的影响。
  • 没有假设数据分布,具有更强的泛用性。
  • 输出为概率形式,可以用于辅助决策。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值