Coursea-吴恩达-machine learning学习笔记（八）【week 4之Neural Networks: Representation】

最新推荐文章于 2022-02-04 16:23:56 发布

痞靥

最新推荐文章于 2022-02-04 16:23:56 发布

阅读量215

点赞数

分类专栏：机器学习文章标签：神经网络

本文链接：https://blog.csdn.net/u012347642/article/details/80502319

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

神经网络(非线性分类)
产生的原因：尝试设计模仿大脑的算法。

神经元表示一个逻辑运算单元。
单一神经元的神经网络表示如下图：
这里写图片描述
一般只绘制 $x_1,x_2,x_3,\cdots$ 。而 $x_0$ 称作偏置单元或偏置神经元，且 $x_0$ 总是等于1。

在描述神经元时，将之称为一个有 $S$ 型函数或逻辑函数作为激励函数的人工神经元。
在神经网络术语中，激励函数是对类似非线性函数 $g(z)={1\over 1+e^{-z}}$ 的另一个称呼。

模型参数 $\begin{equation} \theta=\left[ \begin{matrix} \theta_0\\ \theta_1\\ \theta_2\\ \theta_3 \end{matrix} \right] \end{equation}$ 也称权重。

神经网络是由不同的神经元组合在一起：
这里写图片描述
其中， $Layer 1$ 为输入层， $Layer 2$ 为隐藏层， $Layer 3$ 为输出层， $Layer 1$ 和 $Layer 2$ 可添加偏置单元 $x_0$ 及 $a^{(2)}_0$ (值均总为1)，神经网络中可包含多个隐藏层。

$a^{(j)}_i$ 表示第 $j$ 层的第 $i$ 个神经元或单元的激励函数，激励函数是指有一个具体神经元读入计算并输出值；
$\Theta^{(j)}$ 为神经网络第 $j$ 层到第 $j+1$ 层的权重控制矩阵。

a (2) 1 = g (Θ (1) 10 x 0 + Θ (1) 11 x 1 + Θ (1) 12 x 2 + Θ (1) 13 x 3) a (2) 2 = g (Θ (1) 20 x 0 + Θ (1) 21 x 1 + Θ (1) 22 x 2 + Θ (1) 23 x 3) a (2) 3 = g (Θ (1) 30 x 0 + Θ (1) 31 x 1 + Θ (1) 32 x 2 + Θ (1) 33 x 3) h Θ (x) = a (3) 1 = g (Θ (2) 10 a (2) 0 + Θ (2) 11 a (2) 1 + Θ (2) 12 a (2) 2 + Θ (2) 13 a (2) 3)

$a^{(2)}_1=g(\Theta^{(1)}_{10}x_0+\Theta^{(1)}_{11}x_1+\Theta^{(1)}_{12}x_2+\Theta^{(1)}_{13}x_3)\\a^{(2)}_2=g(\Theta^{(1)}_{20}x_0+\Theta^{(1)}_{21}x_1+\Theta^{(1)}_{22}x_2+\Theta^{(1)}_{23}x_3)\\a^{(2)}_3=g(\Theta^{(1)}_{30}x_0+\Theta^{(1)}_{31}x_1+\Theta^{(1)}_{32}x_2+\Theta^{(1)}_{33}x_3)\\h_\Theta(x)=a^{(3)}_1=g(\Theta^{(2)}_{10}a^{(2)}_0+\Theta^{(2)}_{11}a^{(2)}_1+\Theta^{(2)}_{12}a^{(2)}_2+\Theta^{(2)}_{13}a^{(2)}_3)$
如果神经网络中，第

j j $j$ 层有

s_{j}

$s_j$ 个单元，第

j+1 j + 1 $j+1$ 层有

sj+1 s j + 1 $s_{j+1}$ 个单元，则

Θ(j) Θ ( j ) $\Theta^{(j)}$ 为

sj+1×(sj+1) s j + 1 × ( s j + 1 ) $s_{j+1}\times(s_j+1)$ 维的矩阵。
“+1”来自

Θ(j) Θ ( j ) $\Theta^{(j)}$ 中添加偏置单元

x0 x 0 $x_0$ 和

Θ(j)0 Θ 0 ( j ) $\Theta^{(j)}_0$ ，换句话说，输出节点不包含偏置节点，但输入节点会包括。

令 $\Theta^{(1)}_{10}x_0+\Theta^{(1)}_{11}x_1+\Theta^{(1)}_{12}x_2+\Theta^{(1)}_{13}x_3=Z^{(2)}_1\\\Theta^{(1)}_{20}x_0+\Theta^{(1)}_{21}x_1+\Theta^{(1)}_{22}x_2+\Theta^{(1)}_{23}x_3=Z^{(2)}_2\\\Theta^{(1)}_{30}x_0+\Theta^{(1)}_{31}x_1+\Theta^{(1)}_{32}x_2+\Theta^{(1)}_{33}x_3=Z^{(2)}_3$

则 $\begin{equation} x=\left[ \begin{matrix} x_0\\ x_1\\ x_2\\ x_3 \end{matrix} \right] \end{equation} \qquad$ $\begin{equation} Z^{(2)}=\left[ \begin{matrix} Z^{(2)}_1\\ Z^{(2)}_2\\ Z^{(2)}_3 \end{matrix} \right] \end{equation}$

$\Rightarrow Z^{(2)}=\Theta^{(1)}x$ ( $x$ 也可以替换成 $a^{(1)}$ )
$\Rightarrow a^{(2)}=g(Z^{(2)})$ 得到 $a^{(2)}_1,a^{(2)}_2,a^{(2)}_3$
$\Rightarrow Add \quad a^{(2)}_0=1$
$\Rightarrow Z^{(3)}=\Theta^{(2)}a^{(2)}$
$\Rightarrow h_\Theta(x)=a^{(3)}=g(Z^{(3)})$
整个计算过程称为前向传播

将上述计算过程抽象化：
$\Rightarrow Z^{(2)}_k=\Theta^{(1)}_{k,0}x_0+\Theta^{(1)}_{k,1}x_1+\Theta^{(1)}_{k,2}x_2+\cdots +\Theta^{(1)}_{k,n}x_n$
$\Rightarrow \begin{equation} x=\left[ \begin{matrix} x_0\\ x_1\\ x_2\\ x_3 \end{matrix} \right] \end{equation} \qquad$ $\begin{equation} Z^{(j)}=\left[ \begin{matrix} Z^{(j)}_1\\ Z^{(j)}_2\\ Z^{(j)}_3 \end{matrix} \right] \end{equation}$
$\Rightarrow$ 令 $x=a^{(1)}\quad \to Z^{(j)}=\Theta^{(j-1)}a^{(j-1)}$
$\Rightarrow a^{(j)}=g(Z^{(j)})\quad$ 在 $a^{(j)}$ 中增加偏置单元 $a^{(j)}_0=1$
$\Rightarrow Z^{(j+1)}=\Theta^{(j)}a^{(j)}$
$\Rightarrow h_\Theta(x)=a^{(j+1)}=g(Z^{(j+1)})$

应用举例：
利用神经网络计算 $y=x_1\ AND\ x_2 \qquad$ 其中 $x_1,x_2\in \{0,1\}$
这里写图片描述
加上偏置单元，上图变化如下：

$\Theta^{(1)}=[-30\quad 20\quad 20]$
则： $h_\Theta(x)=g(-30+20x_1+20x_2)$
在 $g(z)$ 函数中，当 $z=4.6$ 时， $g(z)=0.99\approx 1$ ；当 $z=-4.6$ 时， $g(z)=0.01\approx 0$
所以：

x 1 0011 x 2 0101 h Θ (x) g (- 30) \approx 0 g (- 10) \approx 0 g (- 10) \approx 0 g (10) \approx 1

$\begin{array}{lc|r} x_1 & x_2 & h_\Theta(x) \\ \hline 0 & 0 & g(-30)\approx 0 \\ 0 & 1 & g(-10)\approx 0 \\ 1 & 0 & g(-10)\approx 0 \\ 1 & 1 & g(10)\approx 1 \end{array}$

同理：
利用神经网络计算 $y=x_1\ OR\ x_2 \qquad$ 其中 $x_1,x_2\in \{0,1\}$
$\Theta^{(1)}=[-10\quad 20\quad 20]$
利用神经网络计算 $y=x_1\ NOR\ x_2 \qquad$ 其中 $x_1,x_2\in \{0,1\}$
$\Theta^{(1)}=[10\quad -20\quad -20]$