1. 背景:
1.1 以人脑中的神经网络为启发,历史上出现过很多不同版本
1.2 最著名的算法是1980年的 backpropagation
2. 多层向前神经网络(Multilayer Feed-Forward Neural Network)
2.1 Backpropagation被使用在多层向前神经网络上
2.2 多层向前神经网络由以下部分组成:
输入层(input layer), 隐藏层 (hidden layers), 输出层 (output layers)
2.3 每层由单元(units)组成
2.4 输入层(input layer)是由训练集的实例特征向量传入
2.5 经过连接结点的权重(weight)传入下一层,一层的输出是下一层的输入
2.6 隐藏层的个数可以是任意的,输入层有一层,输出层有一层
2.7 每个单元(unit)也可以被称作神经结点,根据生物学来源定义
2.8 以上成为2层的神经网络(输入层不算)
2.8 一层中加权的求和,然后根据非线性方程转化输出
(数据集中的维度通常实例相符,xi通常是特征向量(多个特征值组成一个特征向量)的一个值。对每个实例乘以它对应的权重,加权求和后的方程后,还要做非线性方程转化)
2.9 作为多层向前神经网络,理论上,如果有足够多的隐藏层(hidden layers) 和足够大的训练集, 可以模拟出任何方程
(隐藏层的个数越多,越能模拟出很多方程)
3. 设计神经网络结构
3.1 使用神经网络训练数据之前,必须确定神经网络的层数,以及每层单元的个数
3.2 特征向量在被传入输入层时通常被先标准化(normalize)到0和1之间 (为了加速学习过程)
3.3 (离散型变量连续化,如何实现?)离散型变量可以被编码成每一个输入单元对应一个特征值可能赋的值
比如:特征值A可能取三个值(a0, a1, a2), 可以使用3个输入单元来代表A。
如果A=a0, 那么代表a0的单元值就取1, 其他取0;
如果A=a1, 那么代表a1de单元值就取1,其他取0,以此类推
(假设特征值A(红,黄,蓝,红色的特征向量=x1, 转变为(1,0,0),黄色的特征向量=x2, 转变为(0,1,0),蓝色的特征向量=x3, 转变为(0,0,1))
3.4 神经网络即可以用来做分类(classification)问题,也可以解决回归(regression)问题
3.4.1 对于分类问题,如果是2类,可以用一个输出单元表示(0和1分别代表2类), 如果多余2类,每一个类别用一个输出单元表示,所以输入层的单元数量通常等于类别的数量。
3.4.2 没有明确的规则来设计最好有多少个隐藏层
3.4.2.1 根据实验测试和误差,以及准确度来实验并改进
4. 交叉验证方法(Cross-Validation) 来测试准确度
K-fold cross validation K 几倍交叉验证 ,几次评估之和求平均。
5. Backpropagation算法
5.1 通过迭代性的来处理训练集中的实例
5.2 对比经过神经网络后输入层预测值(predicted value)与真实值(target value)之间
5.3 反方向(从输出层=>隐藏层=>输入层)来以最小化误差(error)来更新每个连接的权重(weight)
5.4 算法详细介绍
输入:D:数据集,l 学习率(learning rate), 一个多层前向神经网络
输出:一个训练好的神经网络(a trained neural network)
5.4.1 初始化权重(weights)和偏向(bias): 随机初始化在-1到1之间,或者-0.5到0.5之间,每个单元有一个偏向
5.4.2 对于每一个训练实例X,执行以下步骤:
5.4.2.1: 由输入层向前传送
输入实例进行添加加权和偏差操作(第一次的权重可以是随机产生的0~1之间的值,后期进行调修。)
一层中加权的求和,然后根据非线性方程转化(激活函数)输出
非线性转化方程 = 激活函数
5.4.2.2 根据误差(error)反向传送
对于输出层:计算误差 = 预测值(1-预测值)(真实值-预测值)
对于隐藏层:计算误差 = 当前神经元测试值(1-当前神经元测试值)(前面一层的误差乘以权重所对应的积求和)
算出来误差是为了更新权重的 (更新的法则是为了误差最小,根据梯度爬行(下降)的方法)
权重更新:l 表示 learning rate 对应在梯度下降的步长。learning rate 根据每一轮的训练是不断减小的,更好一点,就是一个变化率和学习率。更新的权重量= l * (上一层的误差)(当前值) 本来的权重 + 更新的权重。
偏向更新:更新偏向量:l *(当前误差) 偏向=之前的偏向+偏向量。
5.4.3 终止条件
5.4.3.1 权重的更新低于某个阈值(就是梯度值很小的时候)
5.4.3.2 预测的错误率低于某个阈值(或者准确率达到一个阈值)
5.4.3.3 达到预设一定的循环次数(来回一次算一次)
6. Backpropagation 反向传播算法举例
7. 关于非线性转化方程(non-linear transformation function)
sigmoid函数(S 曲线)用来作为activation function:
1.1 双曲函数(tanh)
1.2 逻辑函数(logistic function)