神经网络

1、神经网络

----神经网络的一个重要性质是它可以自动地从数据中学习到合适的权重参数。

1.1从感知机到神经网络在这里插入图片描述

(神经网络的例子)
----我们把最左边的一列称为输入层,最右边的一列称为输出层,中间的一列称为中间层。中间层有时也称为隐藏层。“隐藏”一词的意思是,隐藏层的神经元(和输入层、输出层不同)肉眼看不见。另外,本书中把输入层到输出层依次称为第0层、第1层、第2层(层号之所以从0开始,是为了方便后面基于Python进行实现)。

1.2 复习感知机在这里插入图片描述

----b是被称为偏置的参数,用于控制神经元被激活的容易程度;而w1和w2是表示各个信号的权重的参数,用于控制各个信号的重要性。

1.3 激活函数登场在这里插入图片描述

----h(x)函数会将输入信号的总和转换为输出信号,这种函数一般称为激活函数(activation function)。激活函数的作用在于决定如何来激活输入信号的总和。
在这里插入图片描述
在这里插入图片描述
(明确显示激活函数的计算过程)

----表示神经元的○中明确显示了激活函数的计算过程,即信号的加权总和为节点a,然后节点a被激活函数h()转换成节点y。

----激活函数是连接感知机和神经网络的桥梁。

2 、激活函数

----激活函数以阈值为界,一旦输入超过阈值,就切换输出。这样的函数称为“阶跃函数”。因此,可以说感知机中使用了阶跃函数作为激活函数。也就是说,在激活函数的众多候选函数中,感知机使用了阶跃函数。如果将激活函数从阶跃函数换成其他函数,就可以进入神经网络的世界了。

2.1 sigmoid函数

在这里插入图片描述
e是纳皮尔常数2.7182 …

2.2 阶跃函数的实现

def step_function(x):
	if x > 0:
 		return 1
	else:
 		return 0

这个实现简单、易于理解,但是参数x只能接受实数(浮点数)。

def step_function(x):
	y = x > 0
	return y.astype(np.int)

可以用astype()方法转换NumPy数组的类型。astype()方法通过参数指定期望的类型,这个例子中是np.int型。Python中将布尔型转换为int型后,True会转换为1,False会转换为0。以上就是阶跃函数的实现中所用到的NumPy的“技巧”。

2.3 阶跃函数的图形

import numpy as np
import matplotlib.pylab as plt

def step_function(x):
    return np.array(x>0,dtype=np.int)

x = np.arange(-5.0,5.0,0.1)
y = step_function(x)
plt.plot(x,y)
plt.ylim(-0.1,1.1)
plt.show()

----阶跃函数以0为界,输出从0切换为1(或者从1切换为0)。它的值呈阶梯式变化,所以称为阶跃函数。

2.4 sigmoid函数的实现

def sigmoid(x):
	return 1 / (1 + np.exp(-x))

----参数x为NumPy数组时,结果也能被正确计算。(基于NumPy 的广播功能)

import matplotlib.pylab as plt
import numpy as np
def sigmoid(x):
    return 1/(1+np.exp(-x))
    
x = np.arange(-5.0,5.0,0.1)
y = sigmoid(x)
plt.plot(x,y)
plt.ylim(-0.1,1.1)
plt.show()

在这里插入图片描述
(sigmoid函数的图形)

2.5 sigmoid函数和阶跃函数的比较

不同性质:
1.首先注意到的是“平滑性”的不同。sigmoid函数是一条平滑的曲线,输出随着输入发生连续性的变化。而阶跃函数以0为界,输出发生急剧性的变化。sigmoid函数的平滑性对神经网络的学习具有重要意义。
2.另一个不同点是,相对于阶跃函数只能返回0或1,sigmoid函数可以返回0.731 …、0.880 …等实数(这一点和刚才的平滑性有关)。也就是说,感知机中神经元之间流动的是0或1的二元信号,而神经网络中流动的是连续的实数值信号。

共同性质:
1.它们具有相似的形状。实际上,两者的结构均是“输入小时,输出接近0(为0);随着输入增大,输出向1靠近(变成1)”。也就是说,当输入信号为重要信息时,阶跃函数和sigmoid函数都会输出较大的值;当输入信号为不重要的信息时,两者都输出较小的值。还有一个共同点是,不管输入信号有多小,或者有多大,输出信号的值都在0到1之间。
2.阶跃函数和sigmoid函数还有其他共同点,就是两者均为非线性函数。

2.6 非线性函数

----神经网络的激活函数必须使用非线性函数。
----线性函数的问题在于,不管如何加深层数,总是存在与之等效的“无隐藏层的神经网络”。

2.7 ReLU函数

ReLU(Rectified Linear Unit)函数:
----ReLU函数在输入大于0时,直接输出该值;在输入小于等于0时,输出0
在这里插入图片描述

def relu(x):
    return np.maximum(0, x)

在这里插入图片描述
(ReLU函数)

3 多维数组的运算

3.1 多维数组

3.2 矩阵乘法

3.3 神经网络的内积

在这里插入图片描述
(通过矩阵的乘积进行神经网络的运算)

4 3层神经网络的实现

在这里插入图片描述
(3层神经网络:输入层(第0层)有2个神经元,第1个隐藏层(第1层)有3个神经元,第2个隐藏层(第2层)有2个神经元,输出层(第3层)有2个神经元)

4.1 符号确认

----权重和隐藏层的神经元的右上角有一个“(1)”,它表示权重和神经元的层号(即第1层的权重、第1层的神经元)。此外,权重的右下角有两个数字,它们是后一层的神经元和前一层的神经元的索引号。比如,表示前一层的第2个神经元x2到后一层的第1个神经元 的权重。权重右下角按照“后一层的索引号、前一层的索引号”的顺序排列。
在这里插入图片描述
(权重的符号)

4.2 各层间信号传递的实现

现在看一下从输入层到第1层的第1个神经元的信号传递过程:
在这里插入图片描述
(从输入层到第1层的信号传递)
----任何前一层的偏置神经元“1”都只有一个。偏置权重的数量取决于后一层的神经元的数量

此外,如果使用矩阵的乘法运算,则可以将第1层的加权和表示成下面的式在这里插入图片描述在这里插入图片描述
在这里插入图片描述
(从输入层到第1层的信号传递)
在这里插入图片描述
(第1层到第2层的信号传递)
在这里插入图片描述
(从第2层到输出层的信号传递)

4.3 代码实现小结

----我们按照神经网络的实现惯例,只把权重记为大写字母W1,其他的(偏置或中间结果等)都用小写字母表示。

def init_network():
    network = {}
    network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['b1'] = np.array([0.1, 0.2, 0.3])
    network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network['b2'] = np.array([0.1, 0.2])
    network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network['b3'] = np.array([0.1, 0.2])
    return network
def forward(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']
    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = identity_function(a3)
    return y
network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)
print(y) # [ 0.31682708 0.69627909]

----这里定义了init_network()和forward()函数。init_network()函数会进行权重和偏置的初始化,并将它们保存在字典变量network中。这个字典变量network中保存了每一层所需的参数(权重和偏置)。forward()函数中则封装了将输入信号转换为输出信号的处理过程。
----神经网络的前向处理的实现就完成了。通过巧妙地使用NumPy多维数组,我们高效地实现了神经网络。

5 输出层的设计

----神经网络可以用在分类问题和回归问题上,不过需要根据情况改变输出层的激活函数。回归问题用恒等函数,分类问题用softmax函数。

5.1 恒等函数和 softmax函数在这里插入图片描述

(恒等函数)
在这里插入图片描述在这里插入图片描述
(softmax函数)

实现softmax函数:

>>> a = np.array([0.3, 2.9, 4.0])
>>>
>>> exp_a = np.exp(a) # 指数函数
>>> print(exp_a)
[ 1.34985881 18.17414537 54.59815003]
>>>
>>> sum_exp_a = np.sum(exp_a) # 指数函数的和
>>> print(sum_exp_a)
74.1221542102
>>>
>>> y = exp_a / sum_exp_a
>>> print(y)
[ 0.01821127 0.24519181 0.73659691]
def softmax(a):
 exp_a = np.exp(a)
 sum_exp_a = np.sum(exp_a)
 y = exp_a / sum_exp_a
 return y

5.2 实现 softmax函数时的注意事项

----溢出问题,softmax函数的实现中要进行指数函数的运算,但是此时指数函数的值很容易变得非常大。数值必须在 4字节或 8字节的有限数据宽度内。这意味着数存在有效位数,也就是说,可以表示的数值范围是有限的。
改进式子:
在这里插入图片描述

def softmax(a):
 c = np.max(a)
 exp_a = np.exp(a - c) # 溢出对策
 sum_exp_a = np.sum(exp_a)
 y = exp_a / sum_exp_a
 return y

5.3 softmax函数的特征

----softmax函数的输出是0.0到1.0之间的实数。并且,softmax函数的输出值的总和是1。输出总和为1是softmax函数的一个重要性质。

5.4 输出层的神经元数量

----输出层的神经元数量需要根据待解决的问题来决定。对于分类问题,输出层的神经元数量一般设定为类别的数量。

6 手写数字识别

----推理处理也称为神经网络的前向传播(forward propagation)。

6.1 MNIST数据集

----MNIST的图像数据是28像素 × 28像素的灰度图像(1通道),各个像素的取值在0到255之间。

6.2 神经网络的推理处理

©️2020 CSDN 皮肤主题: 数字20 设计师:CSDN官方博客 返回首页