机器学习之神经网络

最新推荐文章于 2023-07-31 17:28:51 发布

中科院大学网安学院五班

最新推荐文章于 2023-07-31 17:28:51 发布

阅读量608

点赞数

分类专栏：机器学习文章标签：机器学习神经网络

本文链接：https://blog.csdn.net/weixin_43255133/article/details/83377649

版权

6 篇文章 1 订阅

订阅专栏

1.神经元模型

神经元 neurou 模型
神经科学中神经元图片：

个人理解：机器学习的本质是对大量数据的利用，即将大量的数据压缩为可以直接使用的知识与规律，而神经元模型恰好能满足这一需求。
激活函数的介绍
神经元具有“兴奋”与“抑制”两种状态。为了更切合神经元的真实传输情况，我们将神经元的两种状态映射为“1”和“0”，使用Sigmoid激活函数将输入值挤压到（0，1）的范围之中。从而完成了对神经科学中神经元的模拟。

感知层的组成
为了完成更高难度的工作，我们将多个神经元连接起来，形成更复杂的结构。如图所示的感知层已经可以完成与或非的操作。
感知层的训练
训练的过程即为通过训练集对神经元中的参数ω进行调整的过程

公式中ω即为多个神经元的参数矩阵，η为学习率，可以在训练的时候由我们自行设定。
与或非这样一些简单的线性可分问题较为容易解决，而抑或等问题则需要更复杂的结构来解决。

而更常见的网络即为多层前馈神经网络，能够实现更加复杂的功能。
在这里插入图片描述

局部最小问题
误差逆向传播问题的本质就是构造以误差E为因变量，分别以神经网络模型中的各个参数为自变量的函数。再根据梯度以相应的学习率不断调整自变量的值以减小误差E，最终实现模型的最优化过程。这一过程可以想象成为在一片山地之中寻找最低点的问题。将你所在位置的坐标视为模型中的可变参数，将你所在位置的海拔高度视为模型的误差E。你所要做的就是在这片山地中沿着海拔下降最快的方向走，直到走到这片山地的最低点。

这样就可能会带来一个问题，当你走进一个盆地区域，但这个盆地区域的最低点并不是这片山地的最低点。我们称这种情况为局部最小，而整个山地的最低点称为全局最小。
局部最小问题的解决
以下是解决局部最小问题的几种策略：
(1)以多组不同的参数值初始化多个神经网络，再对这些网络进行训练，取误差最下的解作为参数。相当于在山地的不同位置开始探索，减少陷入局部最优的概率。
(2)使用“模拟退火技术”，模拟退火在每一步都有一定的概率接受比当前解更差的结果，从而有助于跳出局部最小。
(3) 使用随机梯度下降，在计算梯度时加入随机因素，即便陷入局部最小点，计算出的梯度可能也仍不为零，有机会跳出局部最小以跳出搜索。

从理论上来说，更复杂的结构、更深层次的网络、更多的参数能够让神经网络完成更复杂的学习任务。但这样的模型复杂度较高，训练效率低。模型复杂度较高，训练效率低。
随着云计算、大数据时代的到来，计算能力的大幅提高可以缓解训练低效性，训练数据的大幅增加可以降低过拟合风险。深度学习开始受到关注。
深度学习中解决训练开销的方法：
(1)“预训练+微调”：每次训练只训练神经网络的一层节点，最后将多层神经网络整合在一起进行微调。
(2)“权共享”：即模型中参数的重复利用，相当于间接减少了模型中需要调节的参数。此方法在卷积神经网络的训练中发挥了显著作用。
卷积神经网络简介：
全连接神经网络对图像的识别是直接将图像转换为一维数组，放弃图像中的空间结构信息，而卷积神经网络以滤波器为单位，对图像的空间结构等信息进行采集。
全连接神经网络：

卷积神经网络：
循环神经网络简介：
以时间维度代替神经网络层级关系的一种神经网络，对于一些序列处理问题、上下文相关问题有较好的效果。

小组问题讨论：
问题1：请再详细描述一下卷积操作的具体过程？
回答：将滤波器和输入矩阵中的选定区域进行矩阵乘法，选定区域在输入矩阵上从左到右，从上到下进行移动，每次只移动一定步长，使滤波器能提取到输入图像上每一个位置的特征。滤波器与输入矩阵的所有乘积将构成一个比输入矩阵稍小一点的矩阵。

问题2 ：滤波器应如何选定？
回答：滤波器的大小是超参数，需要人工选定，一般为3x3,5x5,7x7等；矩阵中的具体数值是需要学习的参数，一开始可以随机选取。

问题3：文本分类可以用RNN吗？
回答： RNN更多是生成语句的时候用，分类问题也可以通过RNN的使用结合语句的上下文语义进行分类。

问题4 ：神经网络参数中的b该如何调整，如何看待参数b？
回答：和调整w的方法类似，将b作为其与误差E组成的函数中的自变量进行求导即可。

问题5 优化目标中加入正则化项应如何理解，为什么需要防止wi过大？
回答：加入正则化项可以避免网络参数过于复杂，wi过大会导致分类边界浮动很大，容易造成过拟合，控制wi的大小可以使分类边界较为平滑，模型泛化性更好。

[1]: 斯坦福大学课程 CS231n: Convolutional Neural Networks for Visual Recognition
[2]:《机器学习》——周志华

关注

专栏目录