深度学习中的数学—Lecture 1(1)

最新推荐文章于 2023-07-04 13:04:39 发布

Codename-NC

最新推荐文章于 2023-07-04 13:04:39 发布

阅读量1.1k

点赞数 1

分类专栏：笔记-数学文章标签：深度学习中的数学深度学习数学

本文链接：https://blog.csdn.net/ericcchen/article/details/72327736

版权

笔记-数学专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Introduction:A Non-Rigorous Review of Deep Learning

原文地址
本篇文章为 MIT 课程 Mathematical Aspects of Deep Learning 的lecture 1 的学习笔记，没有进行完整的翻译，仅供参考

1.深度前向网络（Deep forward networks )

在统计学中，数据以 $\left \langle X_i,f(X_i) \right \rangle$ 的形式给出
其中, $X_i$ 通常是高维的，而 $f(X_i)$ 通常属于 $\left \{ 0,1 \right \} \text {or} \space \mathbb R$ 。
我们的目标就是找到一个函数 $f^*$ ，让它与数据的 $f$ 尽可能接近，这样我们才可以进行准确的预测。

而深度学习，总的来说就是 parametric statistics的子集。
我们有一个函数族

f (X; θ)

$f(X;\theta)$
其中，

X $X$ 是输入，

θ $\theta$ 是参数（通常是高维的）。
我们的目标是找到一个

θ∗ $\theta^*$ ，使得

f(X;θ∗) $f(X;\theta^*)$ 接近于

f $f$ 。
在这里，

θ $\theta$ 就是网络，这个网络由

d $d$ 个函数构成,大多数都是高维的。

f (d) (\cdot, θ) \circ \dots \circ f (1) (\cdot, θ)

$f^{(d)}(\cdot,\theta)\circ \cdots \circ f^{(1)}(\cdot,\theta)$
diagram

图中量	含义
$h_j^{(i)}$	由 $（h_1^{(i-1)},\dots,h_n^{(i-1)}）$ 组成的函数。	$h (i) = g ⨂ (W (i) T x + b (i))$ $h^{(i)=g^\bigotimes(W^{(i)^T}x+b^{(i)})}$ （后文）
$h_1^{(i)},\dots,h_n^{(i)}$	$f^{(i)}$ 的组成成分	网络中的第 $i$ 层（ $i$ -th layer）
$f^{(i)}$ 的组分数量	第 $i$ 层的宽度	层与层之间宽度不一定相同
$d$	网络深度	第 $d$ 层的宽度只有1， $f=f^{(d)}$ is scalar-valued

在这里，如果 $f^{(i)}$ 是线性函数，组分函数都是线性的，就不需要网络了。所以我们期望处理的 $f^{(i)}$ 要是非线性的。

受神经科学启发：神经细胞会接收多个输入信号，输出两种可能状态。一个最基本的模型设计感知机：
可以描述为

f (x) = g (\sum a i x i + c)

$f(x)=g(\sum a_i x_i +c)$ ,其中

g $g$ 是非线性函数。

根据这个基本模型，我们可以定义

h (i) = g ⨂ (W (i) T x + b (i))

$h^{(i)=g^\bigotimes(W^{(i)^T}x+b^{(i)})}$
其中，

g⨂ $g^\bigotimes$ 是非线性函数

g $g$ 的coordinate-wise application。

那么， $g$ 应该怎样选择？
我们希望 $g$ 尽可能是“最非线性”的函数，所以，一般选择 RELU函数(Rectified Linear Units)：

g (z) = m a x (0, z)

$g(z)=max(0,z)$
或者选择对数函数(logistic function )

g (z) = 1 1 + e - 2 β z

$g(z)=\frac{1}{1+e^{-2\beta z}}$
或双曲正切(hyperbolic tangent)

g (z) = t a n h (z) = e z - e - z e z + e - z

$g(z)=tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}$
这两个函数与 RELU 相比，优点在于 有界性上。

上文中提到过，顶层(top layer)与其它层是不一样的。

顶层通常是scalar-valued
顶层有一些统计上的解释， $h_1^{(d-1)},\dots,h_n^{(d-1)}$ 被认为是经典统计模型的参数。
顶层的 $g$ 要根据这个统计含义来选择。
- 一个例子是线性函数
  $y = W T h + b$ $y=W^Th+b$ 输出是一个高斯均值。
- 另一个例子是函数 $\sigma(w^T+b)$ , 其中 $\sigma$ 是 sigmoid 函数
  $x \leftarrow 1 1 + e x$ $x\leftarrow \frac{1}{1+e^x}$ 这里认为输出符合伯努利分布，概率 $P(y)$ 正比于 $exp(yz)$ ,其中 $z=w^T+b$
- 进一步的,给出 soft-max $s o f t m a x (z) i = e x p ( z i ) \sum j e x p ( z j )$ $softmax(z)_i=\frac{exp(z_i)}{\sum_j exp(z_j)}$
  其中， $z=W^Th+b$ 。这里， $z$ 的组分就与输出的可能取值相互对应了起来， $softmax(z)_i$ 对应的就是取值value 为 $i$ 的概率( $z$ 是一个向量，softmax输出为标量，是对矢量 $z$ 的每个维度值 $z_i$ 求了normalized exponential )
Simple example1
```
> Input : [1, 2, 3, 4, 1, 2, 3], 
> Output: [0.024, 0.064, 0.175, 0.475, 0.024, 0.064, 0.175]. 
>The output has most of its weight where the '4' was in the original input. 
>The function highlight the largest values and suppress values which are significantly below the maximum value.
```
例如：向一个网络输入一副图片，输出的
$(s o f t m a x (z) 1, s o f t m a x (z) 2, s o f t m a x (z) 3)$ $(softmax(z)_1,softmax(z)_2,softmax(z)_3)$ 就对应的是这幅图片中是一只猫、狗或青蛙的概率

在后续几周，我们将关注这些问题：
- 这些函数是怎样近似一般函数的？
- 深度和宽度有怎样的表达能力(expressive power)
1. Wikipedia softmax Softmax_function ↩

Codename-NC

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习中的数学—Lecture 1(1)

本篇文章为 MIT 课程 Mathematical Aspects of Deep Learning 的 lecture 1 Introduction:A Non-Rigorous Review of Deep Learning的第一部分学习笔记，1.深度前向网络（Deep forward networks ).
复制链接

扫一扫

专栏目录