【Coursera Machine Learning】 Week4 学习笔记

最新推荐文章于 2022-02-04 16:23:56 发布

JinbaoSite

最新推荐文章于 2022-02-04 16:23:56 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：机器学习 Coursera

本文链接：https://blog.csdn.net/JinbaoSite/article/details/66533855

版权

机器学习专栏收录该内容

20 篇文章 1 订阅

订阅专栏

七、神经网络：表述（Neural Networks：Representation）

7.1 模型表示（Model Representation）

1、每一个神经元都可以被认为是一个处理单元/神经核（Nucleus），它含有许多输入/树突（Dendrite），并且有一个输出/轴突（Axon）。
2、神经网络是大量神经元相互链接并通过电脉冲来交流的一个网络。
3、神经网络模型建立在许多神经元之上，每一个神经元又是一个学习模型，这些神经元（也叫激活单元，activation unit）采纳一些特征作为输入，并且根据本身的模型提供一个输出。
4、以逻辑回归模型作为自身学习模型的神经元示例

我们设计出类似于神经元的神经网络

其中 $x_1,x_2,x_3$ 是输入单元，我们将原始数据输入给它们。
$a_1,a_2,a_3$ 是中间单元，它们负责将数据进行处理，然后呈递到下一层。
最后是输出单元，它负责计算 $h_\theta(x)$
5、神经网络模型

Layer 1是输入层（Input Layer）
Layer 2是隐藏层（Hidden Layer）
Layer 3是输出层（Output Layer）
我们为每一层都增加率一个偏差单元（bias unit）
$a_i^{(j)}$ 代表第j层的第i个激活单元。
$\Theta^{(j)}$ 代表从第j层映射到第j+1层的权重矩阵
激活单元和输出表达式：

a (2) 1 = g (Θ (1) 10 x 0 + Θ (1) 11 x 1 + Θ (1) 12 x 2 + Θ (1) 13 x 3) a (2) 2 = g (Θ (1) 20 x 0 + Θ (1) 21 x 1 + Θ (1) 22 x 2 + Θ (1) 23 x 3) a (2) 3 = g (Θ (1) 30 x 0 + Θ (1) 31 x 1 + Θ (1) 32 x 2 + Θ (1) 33 x 3) h Θ (x) = g (Θ (2) 10 a (2) 0 + Θ (2) 11 a (2) 1 + Θ (2) 12 a (2) 2 + Θ (2) 13 a (2) 3)

$\begin{aligned} & a_1^{(2)}=g( \Theta_{10}^{(1)} x_0 + \Theta_{11}^{(1)} x_1 + \Theta_{12}^{(1)} x_2 + \Theta_{13}^{(1)} x_3) \newline & a_2^{(2)}=g( \Theta_{20}^{(1)} x_0 + \Theta_{21}^{(1)} x_1 + \Theta_{22}^{(1)} x_2 + \Theta_{23}^{(1)} x_3) \newline & a_3^{(2)}=g( \Theta_{30}^{(1)} x_0 + \Theta_{31}^{(1)} x_1 + \Theta_{32}^{(1)} x_2 + \Theta_{33}^{(1)} x_3) \newline & h_\Theta(x) = g( \Theta_{10}^{(2)} a_0^{(2)} + \Theta_{11}^{(2)} a_1^{(2)} + \Theta_{12}^{(2)} a_2^{(2)} + \Theta_{13}^{(2)} a_3^{(2)}) \end{aligned}$
用向量来表示

⎡ ⎣ ⎢ ⎢ ⎢ a (2) 1 a (2) 2 a (2) 3 ⎤ ⎦ ⎥ ⎥ ⎥ = g (⎡ ⎣ ⎢ ⎢ ⎢ Θ (1) 10 Θ (1) 20 Θ (1) 30 Θ (1) 11 Θ (1) 21 Θ (1) 31 Θ (1) 12 Θ (1) 22 Θ (1) 32 Θ (1) 13 Θ (1) 23 Θ (1) 33 ⎤ ⎦ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ x 0 x 1 x 2 x 3 ⎤ ⎦ ⎥ ⎥ ⎥) h Θ (x) = g ([Θ (2) 10 Θ (2) 10 Θ (2) 10 Θ (2) 10] ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ a (2) 0 a (2) 1 a (2) 2 a (2) 3 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥)

$\begin{aligned} & \left[\begin{array}{cccc} a_1^{(2)}\\ a_2^{(2)}\\ a_3^{(2)} \end{array}\right]=g(\left[\begin{array}{cccc} \Theta_{10}^{(1)} & \Theta_{11}^{(1)} & \Theta_{12}^{(1)} & \Theta_{13}^{(1)}\\ \Theta_{20}^{(1)} & \Theta_{21}^{(1)} & \Theta_{22}^{(1)} & \Theta_{23}^{(1)}\\ \Theta_{30}^{(1)} & \Theta_{31}^{(1)} & \Theta_{32}^{(1)} & \Theta_{33}^{(1)} \end{array}\right] \left[\begin{array}{cccc} x_0\\ x_1\\ x_2\\ x_3 \end{array}\right]) \newline & h_\Theta(x) = g( \left[\begin{array}{cccc} \Theta_{10}^{(2)} & \Theta_{10}^{(2)} & \Theta_{10}^{(2)} & \Theta_{10}^{(2)} \end{array}\right] \left[\begin{array}{cccc} a_0^{(2)}\\ a_1^{(2)}\\ a_2^{(2)}\\ a_3^{(2)} \end{array}\right]) \end{aligned}$
令

a (2) = ⎡ ⎣ ⎢ ⎢ ⎢ a (2) 1 a (2) 2 a (2) 3 ⎤ ⎦ ⎥ ⎥ ⎥ Θ (1) = ⎡ ⎣ ⎢ ⎢ ⎢ Θ (1) 10 Θ (1) 20 Θ (1) 30 Θ (1) 11 Θ (1) 21 Θ (1) 31 Θ (1) 12 Θ (1) 22 Θ (1) 32 Θ (1) 13 Θ (1) 23 Θ (1) 33 ⎤ ⎦ ⎥ ⎥ ⎥ x = ⎡ ⎣ ⎢ ⎢ ⎢ x 0 x 1 x 2 x 3 ⎤ ⎦ ⎥ ⎥ ⎥ Θ (2) = [Θ (2) 10 Θ (2) 10 Θ (2) 10 Θ (2) 10]

$\begin{aligned} & a^{(2)}=\left[\begin{array}{cccc} a_1^{(2)}\\ a_2^{(2)}\\ a_3^{(2)} \end{array}\right] \newline & \Theta^{(1)}=\left[\begin{array}{cccc} \Theta_{10}^{(1)} & \Theta_{11}^{(1)} & \Theta_{12}^{(1)} & \Theta_{13}^{(1)}\\ \Theta_{20}^{(1)} & \Theta_{21}^{(1)} & \Theta_{22}^{(1)} & \Theta_{23}^{(1)}\\ \Theta_{30}^{(1)} & \Theta_{31}^{(1)} & \Theta_{32}^{(1)} & \Theta_{33}^{(1)} \end{array}\right] \newline & x=\left[\begin{array}{cccc} x_0\\ x_1\\ x_2\\ x_3 \end{array}\right] \newline & \Theta^{(2)}=\left[\begin{array}{cccc} \Theta_{10}^{(2)} & \Theta_{10}^{(2)} & \Theta_{10}^{(2)} & \Theta_{10}^{(2)} \end{array}\right] \end{aligned}$
则

z (2) = Θ (1) x a (2) = g (z (2)) z (3) = Θ (2) a (2) h Θ (x) = a (3) = g (z (3))

$\begin{aligned} & z^{(2)}=\Theta^{(1)} x \newline & a^{(2)}=g(z^{(2)}) \newline & z^{(3)}=\Theta^{(2)} a^{(2)} \newline & h_\Theta (x) = a^{(3)} = g( z^{(3)} ) \end{aligned}$
如果我们要对整个训练集进行计算，我们需要将训练集特征矩阵进行转置，使得同一个实例的特征都在同一列里，即

z (2) = Θ (1) x T a (2) = g (z (2))

$\begin{aligned} & z^{(2)}=\Theta^{(1)} x^T \newline & a^{(2)}=g(z^{(2)}) \end{aligned}$
当我们遮住Layer 1时，剩下的其实就是逻辑回归（Logistic Regression）

神经网络就像是逻辑回归，我们可以把

a0,a1,a2,a3 $a_0,a_1,a_2,a_3$ 看成更为高级的特征值，也就是

x0,x1,x2,x3 $x_0,x_1,x_2,x_3$ 的进化体，并且它们市由x决定的，因为是梯度下降的，所以a是变化的，并且变得越来越厉害，所以这些更高级的特征值远比仅仅将x次方厉害，也能更好的预测新数据。

7.2 样本和直观理解（Examples and Intuitions）

1、从本质上讲，神经网络能够通过学习得出其自身的一系列特征。在普逻辑回归中，我们被限制为使用数据中的原始特征 $x_1,x_2,...,x_n$ ，我们虽然可以使用一些二项式来组合这些特征，但是我们仍然受到这原始的限制。在神经网络中只输入层，在我们上面三层的神经网络例子中，第三层也就是输出层做出的预测利用的是第二层的特征，而非输入层中的原始特征，我们可以认为第二层中的特征市神经网络通过学习后自己得出的一系列用于预测输出变量的新特征。

2、神经网络如何计算关于输入复杂的非线性函数实例

（1）AND
假设函数为 $h_\theta (x)=g(-30+20x_1+20x_2)$ ，则
当 $x_1=0,x_2=0$ ， $h_\theta (x)=g(-30) \approx 0$
当 $x_1=0,x_2=1$ ， $h_\theta (x)=g(-10) \approx 0$
当 $x_1=1,x_2=0$ ， $h_\theta (x)=g(-10) \approx 0$
当 $x_1=1,x_2=1$ ， $h_\theta (x)=g(10) \approx 1$
则 $h_\theta (x)$ 实现了AND函数。
（2）(NOT x_1) AND (NOT x_2)
假设函数为 $h_\theta (x)=g(10 - 20x_1- 20x_2)$ ，则
当 $x_1=0,x_2=0$ ， $h_\theta (x)=g(10) \approx 1$
当 $x_1=0,x_2=1$ ， $h_\theta (x)=g(-10) \approx 0$
当 $x_1=1,x_2=0$ ， $h_\theta (x)=g(-10) \approx 0$
当 $x_1=1,x_2=1$ ， $h_\theta (x)=g(-30) \approx 0$
则 $h_\theta (x)$ 实现了(NOT x_1) AND (NOT x_2)函数
（3）OR
假设函数为 $h_\theta (x)=g(-10 + 20x_1 + 20x_2)$ ，则
当 $x_1=0,x_2=0$ ， $h_\theta (x)=g(-10) \approx 0$
当 $x_1=0,x_2=1$ ， $h_\theta (x)=g(10) \approx 1$
当 $x_1=1,x_2=0$ ， $h_\theta (x)=g(10) \approx 1$
当 $x_1=1,x_2=1$ ， $h_\theta (x)=g(30) \approx 1$
则 $h_\theta (x)$ 实现了OR函数
（4）XNOR
$x_1$ XNOR $x_2$ = ( $x_1$ AND $x_2$ ) OR { (NOT $x_1$ ) AND (NOT $x_2$ ) }
我们将上面三个组合在一起

这就是一个神经网络。按照这种方法我们可以逐渐构造出越来越复杂的函数，也能得到更加厉害的特征值。

7.3 多元分类（Multiclass Classification）

下面是一个输入x有三个维度，输出y有四个维度的神经网络

输出层4个神经元分别用来表示4类，也就是最后在输出层会出现 $[a, b,c ,d]^T$ ，且a,b,c,d中仅有一个为1，表示当前类。

实例展示：

JinbaoSite

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【Coursera Machine Learning】 Week4 学习笔记

七、神经网络：表述（Neural Networks：Representation）7.1 模型表示（Model Representation） 1、每一个神经元都可以被认为是一个处理单元/神经核（Nucleus），它含有许多输入/树突（Dendrite），并且有一个输出/轴突（Axon）。 2、神经网络是大量神经元相互链接并通过电脉冲来交流的一个网络。 3、神经网络模型建立在许多神经元之上，
复制链接

扫一扫