机器学习常用数学公式

五道口纳什

于 2015-12-03 13:03:25 发布

阅读量6.9k

点赞数 5

分类专栏： math python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lanchunhui/article/details/50159237

版权

python 同时被 2 个专栏收录

210 篇文章 26 订阅

订阅专栏

161 篇文章 8 订阅

订阅专栏

reconstruction error

$x\rightarrow y\rightarrow z$ ， $y$ 是被污染的 $x$ ， $z$ 是从 $y$ 中试图对 $x$ 进行的重构。如何度量重构的好坏，此时就要用到重构误差，也即reconstruction error。

重构误差可通过多种方式进行度量，度量方式的选择取决于给定映射（也即编码code）下关于输入的分布的假设。

传统的平方误差：

L(x,z)=∥x−z∥2
- cross-entropy
  
  $L H (x, z) = - \sum k = 1 d x k log (z k) + (1 - x k) log (1 - z k)$ $L_H(x, z)=-\sum_{k=1}^dx_k\log(z_k)+(1-x_k)\log(1-z_k)$
- 常见向量导数
  
  对于一个 $p$ 维向量 $\mathrm{x}\in\mathbb{R}^p$ ，函数 $y=f(x)=f(x_1, \ldots, x_p)\in\mathbb{R}$ （比如向量的内积运算），则 $y$ 关于 $x$ 的导数为：
  
  ∇xf(x)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢∂f∂x1∂f∂x2⋮∂f∂xp⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥∈Rp
  
  对于一个 $p$ 维向量 $x\in\mathbb{R}^p$ ，函数 $y=f(x)=f(x_1, x_2, \ldots, x_p)\in\mathbb{R}^q$ （如 $(A_{q\times p}x_{p\times 1})_{q\times 1}$ ）
  
  ∇xf(x)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢∂f1∂x1⋮∂f1∂xp∂f2∂x1⋮∂f2xp⋯⋱⋯∂fq∂x1⋮∂fqxp⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥∈Rp×q
  
  所以有：
  
  ∂Ax∂x=⎡⎣⎢⎢⎢⎢⎢βT1βT2⋮βTm⎤⎦⎥⎥⎥⎥⎥x=⎡⎣⎢⎢⎢⎢⎢βT1xβT2x⋮βTmx⎤⎦⎥⎥⎥⎥⎥=[β1,β2,…,βm]=AT
  
  ∂xTA∂x=xT[α1,α2,…,αn]=[xTα1,xTα2,…,xTαn]=[α1,α2,…,αn]
  
  范数求导
  
  线性回归（linear regression）的损失函数（loss function）：
  
  L=minw12∥Y−Xw∥22
  
  其中 $Y_{N\times 1},X_{N\times (d+1)},w_{(d+1)\times 1}$ ，想求得最小化时的权值向量 $w$ ，此时需要求解损失函数 $\mathcal{L}$ 对权值向量 $w$ 的导数：
  
  ∂L∂w=XT(Y−Xw)
  
  从形式上看，对二范数的平方（一个标量）求导得一个向量。最优权值向量 $w$ ，也即是 $\frac{\partial \mathcal{L}}{\partial w}=0$ 时的 $w$ ，也即 $w_{Lin}=(X^TX)^{-1}X^TY=X^{\dagger}Y$ 。
  
  其实范数的本质是一个函数，也即是一种矢量向标量的映射，例如，我们可以将其看做 $\frac12f(x)^2$ ，其对 $x$ 的导数为 $f'(x)f(x)$
  
  按位运算，值到值映射的求导
  
  给定一个函数 $f(x)$ 的输入是标量 $x$ ，对于一组 $K$ 个标量 $x_1, x_2, \ldots, x_K$ ，通过 $f(x)$ 得到另外一组 $K$ 个标量 $z_1, z_2,\ldots,z_K$ ,
  
  zk=f(xk),∀k=1,2,⋯,K
  
  为简单起见，我们定义 $\mathbf{x}=[x_1, x_2, \cdots, x_K]^T,\,\mathbf{z}=[z_1, z_2, \cdots,z_K]^T$ ，
  
  z=f(x)
  ，
  f(x) 是按位（element-wise）运算，即 (f(x))i=f(xi)
  
  如果将 $f(x)$ 的导数记为 $f'(x)$ ，当这个函数的输入为 $K$ 维向量 $x=[x_1, x_2, \ldots, x_K]$ 时，其导数为一个对角矩阵：
  
  ∂f(x)∂x=[∂f(xj)∂xi]K×K=⎡⎣⎢⎢⎢⎢⎢f′(x1)0⋮00f′(x2)⋮0⋯⋯⋱⋯00⋮f′(xk)⎤⎦⎥⎥⎥⎥⎥
  
  比如RNN网络， $h_t=f(Uh_{t-1}+Wx_t+b)$ ， $\frac{\partial h_i}{\partial h_{i-1}}=U^T\mathrm{diag}[f'(h_{i-1})]$
  
  softmax
  
  P(Y=i|x,W,b)=softmaxi(Wx+b)=eWix+bi∑jeWjx+bj
  
  这里 $P(Y=i|x,W,b)$ 表达的是class-membership probabilities（这种类属概念只在多分类问题multi-class classification中才会出现）。其中 $W_{n\_in\times n\_out}$ 表示权值矩阵， $W_j$ 表示权值矩阵的每一列（ $1\leq j\leq n\_out$ ），这里得到的 $Y=i$ （ $i$ 表示类别）与输入样本的真实的样本label值无关，这里纯做预测。所以有：
  
  ypred=argmaxiP(Y=i|x,W,b)
  
  对应的代码形式为：
```
self.p_y_given_x = T.nnet.softmax(T.dot(self.input, self.W)+self.b)
        # self.p_y_given_x：当前输入x下的x属于各个类别的概率
        # self.input => (n*n_in)
        # self.W => (n_in*n_out)
        # self.b => (n_out)
        # 所以当做完矩阵乘法的动作，然后进行相加时((n*n_out)+(n_out,))
        # 会对self.b进行broadcast，也即在列的方向上，拷贝拓展n份，构成一个（n*n_out）的矩阵，然后进行的相加
self.p_pred = T.argmax(self.p_y_given_x, axis=1)
```
  对数似然函数
  
  L(θ={W,b},D)=∑i=0|D|log(p(Y=y(i)|x(i),W,b))ℓ(θ={W,b},D)=−L(θ={W,d},D)
  
  $\theta=\{W,b\}$ 表示参数集， $\mathcal{D}$ 表示样本集， $|\mathcal{D}|$ 表示样本集的基数（cardinal number，也即样本的个数，X.shape[0](numpy)）。
  
  上式表示多分类问题的对数似然函数。下式是作为损失函数（loss function）的似然函数（negative log likelihood）。
  
  反映在代码中，其实十分简洁：
```
def loss_function(self, y):
    return -T.mean(T.log(self.p_y_given_x)[T.arange(y.shape[0]), y])
```
  在取和式的同时顺便又一个取均值的动作。
  
  sigmoid
  
  sigmoid系（Logistic-Sigmoid、Tanh-Sigmoid）被视为神经网络的核心所在：
  
  σ(z)=11+exp(−z)=1+tanh(z/2)2
  
  tanh(z)=exp(z)−exp(−z)exp(z)+exp(−z)=2σ(2z)−1
  
  值域分别是 $\sigma(z)\in(0, 1)\,\tanh(z)\in(-1, 1)$
  
  它们各自的导数分别为：
  
  σ′(z)=σ(z)(1−σ(z))tanh′(z)=1−(tanh(z))2
  
  值域分别是： σ′(z)∈(0,0.25],tanh′(z)∈(0,1]
  
  源代码请见sigmoid_tanh_prime
  
  softmax
  
  数学上，输入向量 $x$ 属于类别 $i$ 的概率，记为随机变量 $Y$ ，其数学形式如下：
  
  P(Y=i|x,w,b)=softmaxi(Wx+b)=eWxi+b∑jeWxj+b
  
  与之相对应的模型进行类别的预测时：
  
  y_pred=argmaxiP(Y=i|x,w,b)
  
  多元高斯密度函数（Multivariate Gaussian Density）
  
  p(x⃗ )∝exp[−12(x⃗ −μ⃗ )TΣ−1(x⃗ −μ⃗ )]
  
  where $\vec \mu$ is an $N$ -dimensional vector position of（注意这里的通用表达） the mean of the density and $\Sigma$ 是 $N\times N$ 的协方差矩阵。

五道口纳什

关注

5
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

五道口纳什 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。