机器学习笔记——人工神经网络（1）

最新推荐文章于 2024-08-14 09:54:25 发布

Simp丶

最新推荐文章于 2024-08-14 09:54:25 发布

阅读量238

点赞数

分类专栏：机器学习文章标签：神经网络

本文链接：https://blog.csdn.net/sp1206/article/details/80348535

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

模型表示

简单的神经网络表示
这里写图片描述

⎡ ⎣ ⎢ x 1 x 2 x 3 ⎤ ⎦ ⎥ \to [] \to h θ (x)

$\begin{bmatrix}x_1 \newline x_2 \newline x_3 \newline \end{bmatrix}\rightarrow\begin{bmatrix}\ \ \ \newline \end{bmatrix}\rightarrow h_\theta(x)$
神经网络的输入是特征

x1,x2,x3 x 1 , x 2 , x 3 $x_1,x_2,x_3$ ，输出是假设函数的结果
在神经网络中，仍采用同样的逻辑函数

hθ(x)=11+e−θTx h θ ( x ) = 1 1 + e − θ T x $h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$
在神经网络中，也称逻辑函数为激励函数，

θ θ $\theta$ 参数为权重。
这里写图片描述

x0 x 0 $x_0$ 为偏置单元，它的值总是等于1
上图中，输入节点Layer1称为输入层，输出假设函数结果的Layer3称为输出层，介于输入层与输出层之间的称为隐藏层。
位于隐藏层的节点(或神经元)称为激励单元。

⎡ ⎣ ⎢ ⎢ ⎢ x 0 x 1 x 2 x 3 ⎤ ⎦ ⎥ ⎥ ⎥ \to ⎡ ⎣ ⎢ ⎢ ⎢ a (2) 1 a (2) 2 a (2) 3 ⎤ ⎦ ⎥ ⎥ ⎥ \to h θ (x)

$\begin{bmatrix}x_0 \newline x_1 \newline x_2 \newline x_3\end{bmatrix}\rightarrow\begin{bmatrix}a_1^{(2)} \newline a_2^{(2)} \newline a_3^{(2)} \newline \end{bmatrix}\rightarrow h_\theta(x)$

a (j) i = "activation" of unit i in layer j Θ (j) = matrix of weights controlling function mapping from layer j to layer j + 1

$\begin{align*}& a_i^{(j)} = \text{"activation" of unit $i$ in layer $j$} \newline& \Theta^{(j)} = \text{matrix of weights controlling function mapping from layer $j$ to layer $j+1$}\end{align*}$

a (2) 1 a (2) 2 a (2) 3 h Θ (x) = a (3) 1 = g (Θ (1) 10 x 0 + Θ (1) 11 x 1 + Θ (1) 12 x 2 + Θ (1) 13 x 3) = g (Θ (1) 20 x 0 + Θ (1) 21 x 1 + Θ (1) 22 x 2 + Θ (1) 23 x 3) = g (Θ (1) 30 x 0 + Θ (1) 31 x 1 + Θ (1) 32 x 2 + Θ (1) 33 x 3) = g (Θ (2) 10 a (2) 0 + Θ (2) 11 a (2) 1 + Θ (2) 12 a (2) 2 + Θ (2) 13 a (2) 3)

$\begin{align*} a_1^{(2)} &= g(\Theta_{10}^{(1)}x_0 + \Theta_{11}^{(1)}x_1 + \Theta_{12}^{(1)}x_2 + \Theta_{13}^{(1)}x_3) \newline a_2^{(2)} &= g(\Theta_{20}^{(1)}x_0 + \Theta_{21}^{(1)}x_1 + \Theta_{22}^{(1)}x_2 + \Theta_{23}^{(1)}x_3) \newline a_3^{(2)} &= g(\Theta_{30}^{(1)}x_0 + \Theta_{31}^{(1)}x_1 + \Theta_{32}^{(1)}x_2 + \Theta_{33}^{(1)}x_3) \newline h_\Theta(x) = a_1^{(3)} &= g(\Theta_{10}^{(2)}a_0^{(2)} + \Theta_{11}^{(2)}a_1^{(2)} + \Theta_{12}^{(2)}a_2^{(2)} + \Theta_{13}^{(2)}a_3^{(2)}) \newline \end{align*}$
假设在Layer j有

sj s j $s_j$ 个单元，Layer j+1有

sj+1 s j + 1 $s_{j+1}$ 个单元，那么

Θ(j) Θ ( j ) $\Theta^{(j)}$ 表示从第j层到第j+1层的权重矩阵，是一个

sj+1×(sj+1) s j + 1 × ( s j + 1 ) $s_{j+1} \times (s_j+1)$ 的矩阵

向量化计算
令

z (2) 1 z (2) 2 z (2) 3 = Θ (1) 10 x 0 + Θ (1) 11 x 1 + Θ (1) 12 x 2 + Θ (1) 13 x 3 = Θ (1) 20 x 0 + Θ (1) 21 x 1 + Θ (1) 22 x 2 + Θ (1) 23 x 3 = Θ (1) 30 x 0 + Θ (1) 31 x 1 + Θ (1) 32 x 2 + Θ (1) 33 x 3

$\begin{align*} z_1^{(2)} &= \Theta_{10}^{(1)}x_0 + \Theta_{11}^{(1)}x_1 + \Theta_{12}^{(1)}x_2 + \Theta_{13}^{(1)}x_3 \newline z_2^{(2)} &= \Theta_{20}^{(1)}x_0 + \Theta_{21}^{(1)}x_1 + \Theta_{22}^{(1)}x_2 + \Theta_{23}^{(1)}x_3 \newline z_3^{(2)} &= \Theta_{30}^{(1)}x_0 + \Theta_{31}^{(1)}x_1 + \Theta_{32}^{(1)}x_2 + \Theta_{33}^{(1)}x_3 \end{align*}$
即, 这里写图片描述

,得到如下表示

a (2) 1 = g (z (2) 1) a (2) 2 = g (z (2) 2) a (2) 3 = g (z (2) 3)

$\begin{align*}a_1^{(2)} = g(z_1^{(2)}) \newline a_2^{(2)} = g(z_2^{(2)}) \newline a_3^{(2)} = g(z_3^{(2)}) \newline \end{align*}$

x x $x$ 与

z_{j}

$z_j$ 的向量形式为

x = ⎡ ⎣ ⎢ ⎢ ⎢ x 0 x 1 \dots x n ⎤ ⎦ ⎥ ⎥ ⎥, z (j) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ z (j) 1 z (j) 2 \dots z (j) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$\begin{align*}x = \begin{bmatrix}x_0 \newline x_1 \newline\cdots \newline x_n\end{bmatrix} , &z^{(j)} = \begin{bmatrix}z_1^{(j)} \newline z_2^{(j)} \newline\cdots \newline z_n^{(j)}\end{bmatrix}\end{align*}$
令

x=a(1) x = a ( 1 ) $x=a^{(1)}$ ,可以写出向量表示的等式

zj=Θ(j−1)a(j−1) z j = Θ ( j − 1 ) a ( j − 1 ) $z^{j}=\Theta^{(j-1)}a^{(j-1)}$ ,

Θ(j−1) Θ ( j − 1 ) $\Theta^{(j-1)}$ 是

sj×(n+1) s j × ( n + 1 ) $s_j\times (n+1)$ 的矩阵，

a(j−1) a ( j − 1 ) $a^{(j-1)}$ 是

(n+1)×1 ( n + 1 ) × 1 $(n+1)\times1$ 的矩阵，得出

zj z j $z^{j}$ 是

sj×1 s j × 1 $s_j\times1$ 的矩阵，

a(j)=g(z(j)) a ( j ) = g ( z ( j ) ) $a^{(j)}=g(z^{(j)})$ 把函数g作用到

z(j) z ( j ) $z^{(j)}$ 的每一个元素上。
在计算了

a(j) a ( j ) $a^{(j)}$ 后，增加偏置单元

a(j)0=1 a 0 ( j ) = 1 $a_0^{(j)}=1$ ，得到

zj+1=Θ(j)a(j) z j + 1 = Θ ( j ) a ( j ) $z^{j+1}=\Theta^{(j)}a^{(j)}$ ，进一步计算出最终结果

h Θ (x) = a (j + 1) = g (z (j + 1))

$h_\Theta(x)=a^{(j+1)}=g(z^{(j+1)})$

Example XNOR

A N D : Θ (1) N O R : Θ (1) O R : Θ (1) = [- 30 2020] = [10 - 20 - 20] = [- 10 2020]

$\begin{align*}AND:\newline\Theta^{(1)} &=\begin{bmatrix}-30 & 20 & 20\end{bmatrix} \newline NOR:\newline\Theta^{(1)} &= \begin{bmatrix}10 & -20 & -20\end{bmatrix} \newline OR:\newline\Theta^{(1)} &= \begin{bmatrix}-10 & 20 & 20\end{bmatrix} \newline\end{align*}$
同或XNOR可以通过与AND、异或NOR、或OR组合得到，在神经网络Layer2计算AND和NOR，再通过Layer3输出层计算OR最终得到XNOR的输出。

⎡ ⎣ ⎢ x 0 x 1 x 2 ⎤ ⎦ ⎥ \to [a (2) 1 a (2) 2] \to [a (3)] \to h Θ (x)

$\begin{align*}\begin{bmatrix}x_0 \newline x_1 \newline x_2\end{bmatrix} \rightarrow\begin{bmatrix}a_1^{(2)} \newline a_2^{(2)} \end{bmatrix} \rightarrow\begin{bmatrix}a^{(3)}\end{bmatrix} \rightarrow h_\Theta(x)\end{align*}$
这里写图片描述

神经网络多类别分类

当进行多类别分类时，使假设函数 $h_\Theta(x)$ 的输出值为一个向量。
例如对有4种类别的分类，令这里写图片描述

Simp丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记——人工神经网络（1）

模型表示简单的神经网络表示 ⎡⎣⎢x1x2x3⎤⎦⎥→[&amp;nbsp;&amp;nbsp;&amp;nbsp;]→hθ(x)[x1x2x3]→[&amp;nbsp;&amp;nbsp;&amp;nbsp;]→hθ(x)\begin{bmatrix}x_1 \newline x_2 \newline x_3 \newline \end{bmatrix}\rightarrow\begin{bmatrix}\ \ \ \newline...
复制链接

扫一扫

专栏目录