累加、累乘与积分作业
-
∑ i m o d 2 = 0 x i \sum_{i\mod2 =0}x_i ∑imod2=0xi
-
问:求向量 X \textbf{X} X中非负分量的加权和,权重向量 W \textbf{W} W非负
答: ∑ x i ≥ 0 w i x i \sum_{x_i \geq 0}w_i x_i ∑xi≥0wixi
问:将上式变为累乘形式
答: ln ∏ x i ≥ 0 e w i x i \ln\prod_{x_i \geq 0} \mathrm{e}^{w_ix_i} ln∏xi≥0ewixi
问:求真实概率分布 P P P与近似概率分布 Q Q Q的KL散度
答: D K L ( P ∥ Q ) = ∫ − ∞ ∞ p ( x ) ln p ( x ) q ( x ) d x \displaystyle D_{\mathrm {KL} }(P\|Q)=\int _{-\infty }^{\infty }p(x)\ln {\frac {p(x)}{q(x)}}\,{\rm {d}}x DKL(P∥Q)=∫−∞∞p(x)lnq(x)p(x)dx
-
三重累加的常用于计算三维张量的和,如图像的各类归一化方法(Batch Norm、Layer Norm 和 Group Norm)中求均值和方差的过程。
-
定积分 ∫ 0 π x sin x d x = π \int_0^\pi x \sin x \, \mathrm{d} x=\pi ∫0πxsinxdx=π的python求解程序为:
import math delta = 0.01 sum([x * math.sin(x) * delta for x in [i * delta for i in range(int(math.pi / delta))]])
结果为3.141537512485255,误差小于1e-5。
线性回归作业
-
最小二乘法例子
令函数 y = 3 x + 5 y=3x+5 y=3x+5, x x x取1,4,5, y ^ \hat{y} y^的取值分别为9,16,19。
建立线性模型 y ^ = f ( x ) = a x + b \hat{y} = f(x) = ax+b y^=f(x)=ax+b,使用最小二乘法求系数 a a a和 b b b。
a = ∑ i = 1 3 x i y ^ i − 3 x ‾ y ‾ ∑ i = 1 3 x i 2 − 3 x ‾ 2 ≈ 3.02 a=\frac{\sum^3_{i=1}x_i\hat{y}_i-3\overline{x}\overline{y}}{\sum_{i=1}^3x_i^2-3\overline{x}^2} \approx3.02 a=∑i=13xi2−3x2∑i=13xiy^i−3xy≈3.02
b = y ‾ − a x ‾ ≈ 4.59 b=\overline{y}-a\overline{x}\approx4.59 b=y−ax≈4.59
-
岭回归推导
优化目标为 arg min L ( w ) = arg min w ∥ X w − Y ∥ 2 2 + λ ∥ w ∥ 2 2 \arg\min{\mathcal{L}(\mathbf{w})}= \underset{\mathbf{w}}{{\arg\min}}\|\mathbf{X}\mathbf{w}-\mathbf{Y}\|^2_2+\lambda\|\mathbf{w}\|^2_2 argminL(w)=wargmin∥Xw−Y∥22+λ∥w∥22
L ( w ) = ( X w − Y ) T ( X w − Y ) + λ w T w = w T X T X w − Y T X w − w T X T Y + Y T + Y T Y + λ w T w \mathcal{L}(\mathbf{w})=(\mathbf{X}\mathbf{w}-\mathbf{Y})^{\mathsf{T}}(\mathbf{X}\mathbf{w}-\mathbf{Y})+\lambda \mathbf{w}^{\mathsf{T}}\mathbf{w}=\mathbf{w}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{Y}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{w}^{\mathsf{T}}\mathbf{X}^{\mathsf{T}}\mathbf{Y}+\mathbf{Y}^{\mathsf{T}}+\mathbf{Y}^{\mathsf{T}}\mathbf{Y}+\lambda \mathbf{w}^{\mathsf{T}} \mathbf{w} L(w)=(Xw−Y)T(Xw−Y)+λwTw=wTXTXw−YTXw−wTXTY+YT+YTY+λwTw
即令 ∂ L ∂ w = 2 X T X w − X T Y − X T Y − 2 λ w = X T X w − X T Y − λ w = 0 \frac{\partial\mathcal{L}}{\partial\mathbf{w}}=2\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{X}^{\mathsf{T}}\mathbf{Y}-\mathbf{X}^{\mathsf{T}}\mathbf{Y}-2\lambda\mathbf{w}=\mathbf{X}^{\mathsf{T}}\mathbf{X}\mathbf{w}-\mathbf{X}^{\mathsf{T}}\mathbf{Y}-\lambda\mathbf{w}=0 ∂w∂L=2XTXw−XTY−XTY−2λw=XTXw−XTY−λw=0
因此 w = ( X T X + λ I ) − 1 X T Y \mathbf{w}=(\mathbf{X}^{\mathsf{T}}\mathbf{X}+\lambda\mathbf{I})^{-1}\mathbf{X}^{\mathsf{T}}\mathbf{Y} w=(XTX+λI)−1XTY
Logistic 回归推导
x
\textbf{x}
x为输入,
w
\textbf{w}
w为学习参数,
y
y
y类别标签,使用sigmoid函数分类概率有
P
(
y
=
1
∣
x
;
w
)
=
1
1
+
e
−
x
w
P(y = 1 \vert \mathbf {x}; \mathbf {w}) = \frac {1}{1 + e^{-\mathbf {xw}}}
P(y=1∣x;w)=1+e−xw1
统一
y
i
y_i
yi的不同取值(0 或 1):
P
(
y
i
∣
x
i
;
w
)
=
P
(
y
i
=
1
∣
x
i
;
w
)
y
i
(
1
−
P
(
y
i
=
1
∣
x
i
;
w
)
)
1
−
y
i
P\left(y_{i} \vert \mathbf{x}_{i} ; \mathbf{w}\right)=P\left(y_{i}=1 \vert\mathbf{x}_{i} ; \mathbf{w}\right)^{y_{i}}\left(1-P\left(y_{i}=1 \vert\mathbf{x}_{i} ; \mathbf{w}\right)\right)^{1-y_{i}}
P(yi∣xi;w)=P(yi=1∣xi;w)yi(1−P(yi=1∣xi;w))1−yi
若数据共有
n
n
n个,总的概率为各个概率的乘积,即
P
a
l
l
=
P
(
y
1
∣
x
1
;
w
)
P
(
y
2
∣
x
2
;
w
)
P
(
y
3
∣
x
3
;
w
)
…
P
(
y
n
∣
x
n
;
w
)
=
∏
i
=
1
n
P
(
y
i
∣
x
i
;
w
)
\begin{aligned} &P_{all}=P\left(y_{1} \vert \boldsymbol{x}_{1}; \mathbf{w}\right) P\left(y_{2} \vert \boldsymbol{x}_{2}; \mathbf{w}\right) P\left(y_{3} \vert \boldsymbol{x}_{3}; \mathbf{w}\right) \ldots P\left(y_{n} \vert \boldsymbol{x}_{n}; \mathbf{w}\right) \\ &=\prod_{i=1}^{n} P(y_i \vert \mathbf{x}_i; \mathbf{w}) \end{aligned}
Pall=P(y1∣x1;w)P(y2∣x2;w)P(y3∣x3;w)…P(yn∣xn;w)=i=1∏nP(yi∣xi;w)优化目标为最大化上式
arg
max
w
L
(
w
)
=
∏
i
=
1
n
P
(
y
i
∣
x
i
;
w
)
\underset{\mathbf{w}}{\arg \max } L(\mathbf{w})=\prod_{i=1}^{n} P\left(y_{i} \vert\mathbf{x}_{i} ; \mathbf{w}\right)
wargmaxL(w)=i=1∏nP(yi∣xi;w)
可以通过两边取对数来把连乘变成连加,从而简化运算:
log
L
(
w
)
=
∑
i
=
1
n
log
P
(
y
i
∣
x
i
;
w
)
=
∑
i
=
1
n
y
i
log
P
(
y
i
=
1
∣
x
i
;
w
)
+
(
1
−
y
i
)
log
(
1
−
P
(
y
i
=
1
∣
x
i
;
w
)
)
=
∑
i
=
1
n
y
i
log
P
(
y
i
=
1
∣
x
i
;
w
)
1
−
P
(
y
i
=
1
∣
x
i
;
w
)
+
log
(
1
−
P
(
y
i
=
1
∣
x
i
;
w
)
)
=
∑
i
=
1
n
y
i
x
i
w
−
log
(
1
+
e
x
i
w
)
\begin {aligned}\log L (\mathbf {w}) & = \sum_{i = 1}^n \log P (y_i \vert \mathbf {x}i; \mathbf{w}) \\ & = \sum_{i = 1}^n y_i \log P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w}) + (1 - y_i) \log(1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})) \\ & = \sum_{i = 1}^n y_i \log \frac{P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})}{1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})} + \log (1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w}))\\& = \sum_{i = 1}^n y_i \mathbf{x}_i \mathbf{w} - \log (1 + e^{\mathbf{x}_i \mathbf{w}}) \end{aligned}
logL(w)=i=1∑nlogP(yi∣xi;w)=i=1∑nyilogP(yi=1∣xi;w)+(1−yi)log(1−P(yi=1∣xi;w))=i=1∑nyilog1−P(yi=1∣xi;w)P(yi=1∣xi;w)+log(1−P(yi=1∣xi;w))=i=1∑nyixiw−log(1+exiw)
对
w
\textbf{w}
w求偏导得:
∂
log
L
(
w
)
∂
w
=
∑
i
=
1
n
y
i
x
i
−
e
x
i
w
1
+
e
x
i
w
x
i
=
∑
i
=
1
n
(
y
i
−
e
x
i
w
1
+
e
x
i
w
)
x
i
\begin {aligned} \frac {\partial \log L (\mathbf {w})}{\partial \mathbf {w}} & = \sum_{i = 1}^n y_i \mathbf {x}_i - \frac {e^{\mathbf {x}_i \mathbf {w}}}{1 + e^{\mathbf {x}_i \mathbf {w}}} \mathbf {x}_i\\ & = \sum_{i = 1}^n \left(y_i - \frac{e^{\mathbf{x}_i \mathbf{w}}}{1 + e^{\mathbf{x}_i \mathbf{w}}}\right) \mathbf{x}_i\end{aligned}
∂w∂logL(w)=i=1∑nyixi−1+exiwexiwxi=i=1∑n(yi−1+exiwexiw)xi
令偏导为0得到迭代方程:
w
t
+
1
=
w
t
−
α
∂
log
L
(
w
)
∂
w
\mathbf{w}^{t+1}=\mathbf{w}^{t}-\alpha \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}}
wt+1=wt−α∂w∂logL(w)
该方法的特点为
- 名字叫回归却常用于分类问题,利用sigmoid函数对问题建模,比线性函数更符合分类问题。
- sigmoid函数任意阶可导,具有良好的数学性质,使得方法简单易实现,许多机器学习算法都会用到该函数。
- 模型的可解释性好,特征的权重能反映不同特征对最后结果的影响。
- 没有假设数据分布,具有更强的泛用性。
- 输出为概率形式,可以用于辅助决策。