Stanford 机器学习课程cs229 数学推导知识

最新推荐文章于 2024-05-15 13:57:56 发布

vcbin

最新推荐文章于 2024-05-15 13:57:56 发布

阅读量1.6k

点赞数

分类专栏： ML 机器学习 cs229 文章标签： cs229 机器学习 Andrew-ng 线性代数概率论

本文链接：https://blog.csdn.net/vcbin/article/details/46434059

版权

机器学习同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

cs229

1 篇文章 0 订阅

订阅专栏

if $x$ is a row vector,then

x T x = (x \cdot x) = ∥ x ∥ 22 = t r (x T x)

$x^Tx=(x \cdot x)=\lVert x \rVert^2_2=tr(x^Tx)$

Linear regression

if $A$ and $B$ are square matrices, and $a$ is a real number:

t r A B C t r A B C D t r A t r (A + B) t r a A \nabla A t r A B \nabla A T f (A) \nabla A T t r A B \nabla A t r A B A T C \nabla A T t r A B A T C i f C = I t h e n \nabla A t r A B A T \nabla A | A | \nabla θ J (θ) X T X θ θ = t r C A B = t r B C A, = t r D A B C = t r C D A B = t r B C D A . = t r A T = t r A + t r B = a t r A = B T = (\nabla A f (A)) T = B = C A B + C T A B T = B T A T C T + B A T C = B T A T + B A T = | A | (A - 1) T = \nabla θ 1 2 (X θ - y ⃗) T (X θ - y ⃗) = 1 2 \nabla θ (θ T X T X θ - θ T X T y ⃗ - y ⃗ T X θ + y ⃗ T y ⃗) = 1 2 \nabla θ t r (θ T X T X θ - θ T X T y ⃗ - y ⃗ T X θ + y ⃗ T y ⃗) = 1 2 \nabla θ (t r θ T X T X θ - 2 t r y ⃗ T X θ) = 1 2 (X T X θ + X T X θ - 2 X T y ⃗) = X T X θ - X T y ⃗ = X T y ⃗ = (X T X) - 1 X T y ⃗

$\begin{align} trABC &= trCAB=trBCA, \\ trABCD &= trDABC=trCDAB=trBCDA. \\ trA &=trA^T \\ tr(A+B) &= trA+trB \\ tr \, aA &=atrA \\ \nabla_A trAB &= B^T \\ \nabla_{A^T}f(A) &= (\nabla_Af(A))^T \\ \nabla_{A^T} trAB &= B \\ \nabla_A trABA^TC &= CAB+C^TAB^T \\ \nabla_{A^T} trABA^TC &= B^TA^TC^T+BA^TC \\ if \; C=I \; then \quad \nabla_A trABA^T &=B^TA^T+BA^T \\ \nabla_A |A| &= |A|(A^{-1})^T \\ \nabla_\theta J(\theta) &= \nabla_\theta \frac 12 (X \theta-\vec y)^T(X \theta-\vec y) \\ &= \frac 12 \nabla_\theta \;(\theta^T X^T X \theta-\theta^T X^T \vec y-\vec y^T X \theta +\vec y^T \vec y)\\ &= \frac 12 \nabla_\theta \, tr \;(\theta^T X^T X \theta-\theta^T X^T \vec y-\vec y^T X \theta +\vec y^T \vec y) \\ &= \frac 12 \nabla_\theta \; (tr \, \theta^T X^T X \theta - 2 tr \, \vec y^T X \theta)\\ &= \frac 12 (X^T X \theta + X^T X \theta - 2X^T \vec y)\\ &= X^T X \theta-X^T \vec y \\ X^T X\theta &=X^T \vec y& \\ \theta &=(X^T X)^{-1}X^T \vec y \end{align}$

Locally weighted linear regression

w (i) = e x p (- ( x ( i ) - x ) 2 2 τ 2) X T W X θ = X T W y ⃗ θ = (X T W X) - 1 X T W y ⃗

$\begin{align} w^{(i)} = exp \left( - { (x^{(i)}-x)^2 \over 2\tau^2 } \right)\\ X^T W X \theta=X^T W \vec y \\ \theta=(X^T W X)^{-1}X^T W \vec y \\ \end{align}$

Newton’s method:

θ : = θ - H - 1 \nabla θ ℓ (θ) . H i j = \partial 2 ℓ ( θ ) \partial θ i \partial θ j .

$\begin{align} \theta := \theta - H^{-1} \nabla_{\theta} \ell (\theta). \\ H_{ij}={ \partial^2 \ell(\theta) \over \partial \theta_i \partial \theta_j }. \end{align}$
fit logistic regression using locally weighted lr:
the log-likelihood function for logistic regression:

ℓ (θ) = \sum i = 1 m y (i) log h (x (i)) + (1 - y (i)) log (1 - h (x (i)))

$\ell(\theta)= \sum_{i=1}^m y^{(i)} \log h(x^{(i)})+(1 - y^{(i)}) \log (1 - h(x^{(i)}))$
for any vector

z $z$ , it holds true that

z T H z \partial ℓ ( θ ) \partial θ k H k l \leq 0. = \sum i = 1 m (y (i) - h (x (i))) x (i) k = \partial 2 ℓ (θ) = \sum i = 1 m - \partial h ( x ( i ) ) \partial θ l x (i) k = \sum i = 1 m - h (x (i)) (1 - h (x (i))) x (i) l x (i) k

$\begin{align} z^T H z & \le 0. \\ { \partial \ell (\theta) \over \partial \theta_k } & = \sum_{i=1}^m(y^{(i)} - h(x^{(i)})) x_k^{(i)}\\ H_{kl} & = {\partial^2 \ell (\theta)} \\ & = \sum_{i=1}^m -{ \partial h(x^{(i)}) \over \partial \theta_l } x_k^{(i)} \\ & = \sum_{i=1}^m -h(x^{(i)})(1-h(x^{(i)})) x_l^{(i)} x_k^{(i)} \end{align}$

The Exponential family

we say that a class of distribution is in the exponential family if it can be written in the form

p (y; η) = b (y) e x p (η T T (y) - a (η))) .

$\begin{align} p(y;\eta)=b(y)exp(\eta^T T(y)-a(\eta))). \end{align}$

Jensen′sinequality $Jensen's inequality$
Suppose we start with the inequality in the basic definition of a convex function

f (θ x + (1 - θ) y) \leq θ f (x) + (1 - θ) f (y) f o r 0 \leq θ \leq 1.

$f(\theta x+(1-\theta)y) \le \theta f(x)+(1-\theta)f(y)\quad for \quad 0 \le \theta \le 1.$
Using induction, this can be fairly easily extended to convex combinations of more than one point,

f (\sum i = 1 k θ i x i) \leq \sum i = 1 k θ i f (x i) f o r \sum i = 1 k θ i = 1, θ i \geq 0 \forall i .

$f \left( \sum_{i=1}^k \theta_i x_i \right) \le \sum_{i=1}^k \theta_i f(x_i) \quad for \quad \sum_{i=1}^k \theta_i =1,\; \theta_i \ge 0 \;\; \forall i.$
In fact, this can also be extended to infinite sums or integrals. In the latter case, the inequality can be written as

f (\int p (x) x d x) \leq \int p (x) f (x) d x f o r \int p (x) d x = 1, p (x) \geq 0 \forall x .

$f\left( \int p(x)xdx \right)\le \int p(x)f(x)dx \quad for \quad \int p(x)dx=1, \; p(x) \ge0 \;\; \forall x.$
Because p(x) integrates to 1, it is common to consider it as a probability density, in which case the previous equation can be written in terms of expectations,

f (E [x]) \leq E [f (x)]

$f(E[x]) \le E[f(x)]$

Learning theory
Lemma. (The union bound). Let $A_1,A_2,\dots,A_k$ be $k$ different events (that may not be independent). Then

P (A 1 \cup \dots \cup A k) \leq P (A 1) + \dots + P (A k)

$P( A_1 \cup \dots \cup A_k ) \le P(A_1) + \dots + P(A_k)$
Lemma. (Hoeffding inequality) Let

Z1,…,Zm $Z_1,\dots,Z_m$ be

m $m$ independent and identically distributed (iid) random variables drawn from a

Bernoulli(ϕ) $Bernoulli(\phi)$ distribution. Let

ϕ^=(1/m)∑mi=1Zi $\hat{\phi}=(1/m)\sum_{i=1}^m Z_i$ be the mean of these random variables, and let any

γ>0 $\gamma \gt 0$ be fixed. Then

P (| ϕ - ϕ^> γ |) \leq 2 e x p (- 2 γ 2 m)

$P(|\phi-\hat{\phi} \gt \gamma|) \; \le \; 2exp(-2 \gamma^2 m)$
This lemma (which in learning theory is also called the Chernoff bound) says that if we take

ϕ^− $\hat{\phi}-$ the average of

mBernoulli(ϕ) $m \; \; Bernoulli(\phi)$ random variables

− $-$ to be our estimate of

ϕ $\phi$ , then the probability of our being far from the true value is small, so long as

m $m$ is large.

h^= arg min h \in H ϵ^(h)

$\hat{h}= \arg \min_{h \in \mathcal{H}} \hat{\epsilon} (h)$
For a hypothesis

h $h$ ,we define the training error (also called the empirical risk or empirical error in learning theory) to be

ϵ^(h)=1m∑i=1m1{h(x(i))≠y(i)}

$\hat{\epsilon}(h)=\frac 1 m \sum_{i=1}^m 1\{h(x^{(i)}) \ne y^{(i)}\}$

ϵ (h) = P (x, y) \sim D (h (x) \neq y) .

$\epsilon(h)=P_{(x,y) \sim D}(h(x) \ne y).$

ϵ^(h i) = 1 m \sum j = 1 m Z j .

$\hat{\epsilon} (h_i)= \frac 1 m \sum_{j=1}^m Z_j.$

ϵ (h^) \leq ϵ (h *) + 2 γ

$\epsilon(\hat{h}) \le \epsilon (h_*) + 2\gamma$
Theorem. Let

|H|=k $|\mathcal{H}|=k$ , and let any

m,σ $m,\sigma$ be fixed. Then with probability at least

1−σ $1-\sigma$ , we have that

ϵ (h^) \leq (min h \in H ϵ (h)) + 2 1 2 m l o g 2 k σ - - - - - - - - - \sqrt

$\epsilon(\hat{h}) \le \left ( \min_{h\in \mathcal{H}} \epsilon(h) \right )+ 2\sqrt{\frac 1 2m log \frac {2k} \sigma}$
Corollary. Let

|H|=k $|\mathcal{H}|=k$ , and let any

γ $\,\gamma$ be fixed. Then for

ϵ(h^)≤minh∼Hϵ(h)+2γ $\epsilon(\hat{h}) \le \min_{h \sim \mathcal{H}} \epsilon(h) + 2\gamma$ to hold with probability at least

1−δ $1-\delta$ , it suffices that

m \geq 1 2 γ 2 l o g 2 k δ = O (1 γ 2 l o g k δ) .

$\begin{align} m & \ge \frac 1 {2\gamma^2} log \frac {2k} \delta \\ & = O\left(\frac 1 {\gamma^2}log \frac k \delta \right). \end{align}$

Factor Analysis:

Marginals and conditionals of Gaussians,

C o v (x) = Σ = [Σ 11 Σ 21 Σ 12 Σ 22] = E [(x - μ) (x - μ) T] = E ⎡ ⎣ (x 1 - μ 1 x 2 - μ 2) (x 1 - μ 1 x 2 - μ 2) T ⎤ ⎦ = E [(x 1 - μ 1) (x 1 - μ 1) T (x 2 - μ 2) (x 1 - μ 1) T (x 1 - μ 1) (x 2 - μ 2) T (x 2 - μ 2) (x 2 - μ 2) T]

$\begin{align}Cov(x) & = \Sigma \\ & = \begin{bmatrix} \Sigma_{11} && \Sigma_{12} \\ \Sigma_{21} && \Sigma_{22} \end{bmatrix} \\ & = E[(x-\mu)(x-\mu)^T] \\ & =E\begin{bmatrix} \begin{pmatrix} x_1-\mu_1 \\ x_2-\mu_2 \end{pmatrix} & {\begin{pmatrix} x_1-\mu_1 \\ x_2-\mu_2 \end{pmatrix}}^T \end{bmatrix} \\ & =E\begin{bmatrix} (x_1-\mu_1){(x_1-\mu_1)}^T & (x_1-\mu_1){(x_2-\mu_2)}^T \\ (x_2-\mu_2){(x_1-\mu_1)}^T & (x_2-\mu_2){(x_2-\mu_2)}^T \end{bmatrix}\end{align}$

μ 1 | 2 Σ 1 | 2 = μ 1 + Σ 12 Σ - 1 22 (x 2 - μ 2) = Σ 11 - Σ 12 Σ - 1 22 Σ 21

$\begin{align} \mu_{1|2} & = \mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2) \\ \Sigma_{1|2} & = \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \end{align}$
To deduce the above marginals,we define

V∈R(m+n)×(m+n) $V \in R^{(m+n)\times (m+n)}$ need the lemma below:

V = [V A A V B A V A B V B B] = Σ - 1 [A C B D] - 1 = [M - 1 - D - 1 C M - 1 - M - 1 B D - 1 D - 1 + D - 1 C M - 1 B D - 1]

$\begin{align} V = \begin{bmatrix} V_{AA} & V_{AB}\\ V_{BA} & V_{BB} \end{bmatrix}=\Sigma^{-1} \\ \begin{bmatrix} A & B\\ C & D \end{bmatrix}^{-1}=\\ \begin{bmatrix} M^{-1} & -M^{-1}BD^{-1}\\ -D^{-1}C M^{-1} & D^{-1}+D^{-1}CM^{-1}BD^{-1} \end{bmatrix} \end{align}$
where

M=A−BD−1C. $M=A-BD^{-1}C.$ Using this formula, it follows that

[Σ A A Σ B A Σ A B Σ B B] = [V A A V B A V A B V B B] - 1 = [(V A A - V A B V - 1 B B V B A) - 1 - V - 1 B B V B A (V A A - V A B V - 1 B B V B A) - 1 - (V A A - V A B V - 1 B B V B A) - 1 V A B V - 1 B B (V B B - V B A V - 1 A A V A B) - 1]

$\begin{align} \begin{bmatrix} \Sigma_{AA} & \Sigma_{AB}\\ \Sigma_{BA} & \Sigma_{BB} \end{bmatrix}&=\begin{bmatrix} V_{AA} & V_{AB}\\ V_{BA} & V_{BB} \end{bmatrix}^{-1}\\ &= \begin{bmatrix} (V_{AA}-V_{AB}V_{BB}^{-1}V_{BA})^{-1} & -(V_{AA}-V_{AB}V_{BB}^{-1}V_{BA})^{-1}V_{AB}V_{BB}^{-1}\\ -V_{BB}^{-1}V_{BA} (V_{AA}-V_{AB}V_{BB}^{-1}V_{BA})^{-1} & (V_{BB} - V_{BA}V_{AA}^{-1}V_{AB})^{-1} \end{bmatrix} \end{align}$
And the “completion of squares” trick.Consider the quadratic function

zTAz+bTz+c $z^TAz+b^Tz+c$ where

A $A$ is a symmetric,nonsingular matrix.Then, one can verify directly that

1 2 z T A z + b T z + c = 1 2 (z + A - 1 b) T A (z + A - 1 b) + c - 1 2 b T A - 1 b .

$\frac 12 z^TAz+b^Tz+c=\frac 12 (z+A^{-1}b)^TA(z+A^{-1}b)+c-\frac 12 b^TA^{-1}b.$
EM for factor analysis
In the factor analysis model, we posit a joint distribution on

(x,z) $(x,z)$ as follows,where

z∈Rk $z \in \mathbb{R}^k$ is a latent random variable:

z x | z \sim N (0, I) \sim N (μ + Λ z, Ψ) .

$\begin{align} z & \sim \mathcal{N}(0,I)\\ x|z & \sim \mathcal{N}(\mu + \Lambda z,\Psi). \end{align}$
Here, the parameters of our model are the vector

μ∈Rn $\mu \in \mathbb{R}^n$ , the matrix

Λ∈Rn×k $\Lambda \in \mathbb{R}^{n \times k}$ . The value of

k $k$ is usually chosen to be smaller than

n $n$ .
Thus, we imagine that each datapoint

x(i) $x^{(i)}$ is generated by sampling a

k $k$ dimension multivariate Gaussian

z(i) $z^{(i)}$ . Then, it is mapped to a

k $k$ -dimensional affine space of

Rn $\mathbb{R}^n$ by computing

μ+Λz(i) $\mu + \Lambda z^{(i)}$ . Lastly,

x(i) $x^{(i)}$ is generated by adding covariance

Ψ $\Psi$ noise to

μ+Λz(i) $\mu + \Lambda z^{(i)}$ .

z ϵ x \sim N (0, I) \sim N (0, Ψ) = μ + Λ z + ϵ

$\begin{align} z & \sim \mathcal{N}(0,I) \\ \epsilon & \sim \mathcal{N}(0,\Psi) \\ x & = \mu+\Lambda z+\epsilon \end{align}$
where

ϵ $\epsilon$ and

z $z$ are independent.

[z x] \sim N ([0 ⃗ μ], [I Λ Λ T Λ Λ T + Ψ])

$\begin{bmatrix} z \\ x \end{bmatrix} \sim \mathcal{N} \begin{pmatrix} \begin{bmatrix} \vec 0 \\ \mu \end{bmatrix} , & \begin{bmatrix} I & \Lambda^T \\ \Lambda & \Lambda \Lambda^T+\Psi \end{bmatrix} \end{pmatrix}$

ℓ (μ, Λ, Ψ) = l o g \prod i = 1 m 1 ( 2 π ) n / 2 ∣ ∣ Λ Λ T + Ψ ∣ ∣ 1 / 2 e x p (- 1 2 (x (i) - μ) T (Λ Λ T + Ψ) - 1 (x (i) - μ)) .

$\begin{align} \ell(\mu,\Lambda,\Psi)=log \prod_{i=1}^m {1 \over (2\pi)^{n/2}\left\vert \Lambda\Lambda^T+\Psi \right\vert^{1/2}}exp\left( -\frac 12 (x^{(i)}-\mu)^T(\Lambda\Lambda^T+\Psi)^{-1}(x^{(i)}-\mu) \right). \end{align}$

z (i) | x (i); μ, Λ, Ψ \sim N (μ z (i) | x (i), Σ z (i) | x (i)) μ z (i) | x (i) Σ z (i) | x (i) Λ μ Φ = Λ T (Λ Λ T + Ψ) - 1 (x (i) - μ), = I - Λ T (Λ Λ T + Ψ) - 1 Λ = (\sum i = 1 m (x (i) - μ) μ T z (i) | x (i)) (\sum i = 1 m μ z (i) | x (i) μ T z (i) | x (i) + Σ z (i) | x (i)) - 1 = 1 m \sum i = 1 m x (i) = 1 m \sum i = 1 m x (i) x (i) T - x (i) μ T z (i) | x (i) Λ T - Λ μ z (i) | x (i) x (i) T + Λ (μ z (i) | x (i) μ T z (i) | x (i) + Σ z (i) | x (i)) Λ T

$\begin{align} z^{(i)}|x^{(i)};\mu,\Lambda,\Psi \sim \mathcal{N}(\mu_{z^{(i)}|x^{(i)}},\Sigma_{z^{(i)}|x^{(i)}}) \\ \mu_{z^{(i)}|x^{(i)}} & = \Lambda^T(\Lambda \Lambda^T+ \Psi)^{-1}(x^{(i)}-\mu), \\ \Sigma_{z^{(i)}|x^{(i)}} & = I - \Lambda^T(\Lambda \Lambda^T+ \Psi)^{-1}\Lambda \\ \Lambda & = \left( \sum_{i=1}^m (x^{(i)}-\mu)\mu^T_{z^{(i)}|x^{(i)}} \right) \left( \sum_{i=1}^m \mu_{z^{(i)}|x^{(i)}} \mu^T_{z^{(i)}|x^{(i)}}+\Sigma_{z^{(i)}|x^{(i)}} \right)^{-1} \\ \mu & = \frac 1m \sum_{i=1}^m x^{(i)} \\ \Phi & = \frac 1m \sum_{i=1}^m x^{(i)}{x^{(i)}}^T-x^{(i)}\mu^T_{z^{(i)}|x^{(i)}}\Lambda^T-\Lambda\mu_{z^{(i)}|x^{(i)}}{x^{(i)}}^T \\ & \quad +\Lambda(\mu_{z^{(i)}|x^{(i)}}\mu^T_{z^{(i)}|x^{(i)}}+\Sigma_{z^{(i)}|x^{(i)}})\Lambda^T \end{align}$
setting

Ψii=Φii $\Psi_{ii}=\Phi_{ii}$ ( i.e. ,letting

Ψ $\Psi$ be the diagonal matrix containing only the diagonal entries of

Φ $\Phi$ ).

vcbin

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Stanford 机器学习课程cs229 数学推导知识

if xx is a row vector,then xTx=(x⋅x)=∥x∥22=tr(xTx)x^Tx=(x \cdot x)=\lVert x \rVert^2_2=tr(x^Tx) Linear regression: trA=trATtrA=trA^T tr(A+B)=trA+trBtr(A+B)=trA+trB traA=atrAtraA=atrA ∇AtrAB=BT\nab
复制链接

扫一扫