深度学习从入门到入土,基础知识篇二


图像如有侵权请联系作者删除,谢谢

1. 从生物神经网络到人工神经网络

1.1生物神经元

生物神经元,也称为神经细胞,是构成神经系统的基本结构和功能单元。它们负责接收、处理和传递信息,是大脑、脊髓以及遍布全身的神经网络中的核心组成部分。每个神经元都具有以下主要结构:

  1. 细胞体(Soma):这是神经元的主体部分,包含细胞核、线粒体、高尔基体等细胞器。细胞核控制着细胞的遗传信息,而尼氏体(Nissl’s bodies)富含核糖体,是蛋白质合成的重要场所。细胞质中的微管、微丝和中间纤维构成了神经元的骨架,支持其形态并参与物质运输。
  2. 树突(Dendrites):这些是短而分枝多的突起,从细胞体延伸出来,主要负责接收来自其他神经元的信号(通常是通过突触连接)。树突表面有许多受体,可以捕捉到神经递质,将信号传递到细胞体。
  3. 轴突(Axon):轴突通常较长,负责将信号从细胞体传出到其他神经元或效应器细胞(如肌肉或腺体细胞)。轴突起始于轴丘,其表面覆盖有髓鞘(在大多数情况下),这是一层由施万细胞(在周围神经系统)或少突胶质细胞(在中枢神经系统)形成的绝缘物质,有助于加快电信号(动作电位)的传导速度。
  4. 突触:神经元之间的信息传递发生在突触处。轴突的末端分支形成突触前终末,与下一个神经元的树突或细胞体上的突触后膜相接触,中间隔着突触间隙。当电信号到达轴突末端时,会导致神经递质的释放,这些化学物质穿过突触间隙,与下一个神经元上的受体结合,从而传递信息。
    生物神经元结构图

神经元通过这些结构和机制,以高度复杂且精细调节的方式,共同工作,形成了我们思考、感知、行动和所有生理功能的基础。

1.2人工神经元

从生物神经元结构到人工神经元结构
人工神经网络是生物神经网络的一种模拟和近似,从结构与原理上进行拟合人工神经网络的机理。。信号在生物神经元之间通过电信号与化学信号进行传播,在人工神经元模型中,需要将此传播方式进行等效模拟,才能用数学模型表达。生物神经元通过树突接受输入信号,在人工神经元结构中,则等效为一系列的离散或者联系的信号输入;细胞核负责对接收的信号进行处理,而人工神经元结构则利用权重与输入相互作用,加入偏置,再结合激活函数进行进处理;生物神经元的轴突传递输出信息号到突出,人工神经元结构中则进行类似的处理结果输出,到下一层神经元。
神经网络的发展总体来说经历了三个阶段(三次高潮,两次低谷期):1940 ~ 1960,1980 ~ 1990,2006年以后。最早在1940年左右,著名的控制论学家 Warren Mcculloch与逻辑学家Walter Pitts在总结了生物神经元的特性之后,通过阈值方式设计了数学表达的神经网络模型,诞生了人工神经元,这个模型一直沿用至今,并对相关领域有着深远的影响。(让我们为科学路上的巨人撒花!!!)

2.从传统神经网络到卷积神经网络

2.1传统神经网路

人工神经网络由多个神经元组成,而初期的、简单的、较为基础的人工神经网络则属于传统神经网络。许多的神经元组成的信息处理结构可以实现并行的结构,从而形成了更复杂的神经网络。传统神经网络的结构如下图所示,包括输入层、隐藏层、输出层。
输入层:接收信号的输入;
隐藏层:由多个神经元组成,进行特征的计算,一个神经网络具有多个隐藏层;
输出层:将经过隐藏层传输、激活之后的信号进行输出。
传统神经网路结构
一个传统神经网络的输入节点一般是固定的,输入数据的数量需要根据网路节点去进行适配;
传统的人工神经网路的主要在于每个节点的连接,节点本身不重要,只是信息的汇集,重要的是每个节点的连接(附加了权重);
传统神经网路的每一个神经元都参与进信息的传递,属于全连接。

2.2卷积神经网络

卷积神经网络(Convolutional Neural Networks, CNN)是一种特殊类型的深度学习模型,专门用来处理具有相似信息的网路结构的数据的神经网络,例如处理时间序列数据和图像数据。卷积神经网路一般具有如下结构,包含

  1. 卷积层(Convolutional Layer):卷积层是卷积神经网络的核心部分,它使用一组可学习的滤波器(或称为卷积核)对输入数据进行卷积操作,以提取数据的局部特征。
  2. 激活函数(Activation Function):在卷积操作之后,通常会使用激活函数来增加网络的非线性。常见的激活函数包括ReLU、Sigmoid和Tanh等。
  3. 池化层(Pooling Layer):池化层通常位于卷积层之后,用于对特征图进行下采样,以减少数据的空间尺寸和参数数量,同时保留重要的特征信息。常见的池化操作包括最大池化和平均池化。
  4. 全连接层(Fully Connected Layer):在卷积神经网络的后端,通常会使用全连接层来将特征图展平为一维向量,并用于分类或回归等任务。
  5. 损失函数(Loss Function):损失函数用于衡量网络预测结果与实际标签之间的差异,并通过反向传播算法来更新网络的权重参数。常见的损失函数包括均方误差损失、交叉熵损失等。
    卷积神经网络结构

3. 感知机与多层感知机

3.1感知机

感知机(Perceptron) 是一种最基础的人工神经网络模型,是一个简单的二元线性分类器,用于将输入数据分配到两个类别中的一个(比如:高矮、胖瘦、冷热等等使用感知机模型就可以获取很好的分类效果)。感知机的目的是找到一个能够尽可能合理的将不同的数据正确区分的超平面(对于二维空间,即一条直线),从而实现对新的未知样本的预测。其模型包括输入层、权重、偏置项以及一个激活函数。
感知机模型

感知机的原理是将输入特征与预先设定的权重相乘,然后加上一个偏置项,最后通过一个阈值函数(如sign函数,现代实践中更常用的是阶跃函数或sigmoid函数)来决定输出。如果这个加权和超过某个阈值,输出为1(代表一个类别),否则为0(代表另一个类别)。感知机利用迭代学习算法(如随机梯度下降)来调整权重,以最小化分类错误。然而,感知机从原理来说是一个线性函数,只适用于线性可分的数据,对于非线性可分数据则无法找到合适的分类边界。

3.2多层感知机

多层感知机(Multilayer Perceptron, MLP) 是感知机的扩展,通过引入一个或多个隐藏层,使得网络有能力学习和表达更复杂的非线性关系(也就是传统神经网络)。在MLP中,除了输入层和输出层之外,还存在至少一个隐藏层,每个隐藏层包含若干个神经元。每个神经元都会接收前一层所有神经元的输出作为输入,并通过自己的权重和偏置进行加权求和,再通过一个非线性激活函数(如ReLU、tanh或sigmoid)变换输出。这些非线性变换让多层感知机能够拟合任意复杂的决策边界,从而解决了感知机对非线性数据无能为力的问题。但感知机模型存在以下缺点:

  1. 过拟合:多层感知机由于其复杂的结构,尤其是在隐藏层较多且节点数量较大时,容易发生过拟合现象。
  2. 局部最优解:使用梯度下降等优化算法训练多层感知机时,可能会陷入局部最优解而非全局最优解。
  3. 训练时间和计算资源:由于感知机模型是全连接的,随着网络深度和宽度的增加,模型的训练时间及所需的计算资源也会显著增加。
  4. 模型解释性:多层感知机的复杂性使得模型的解释性降低。对于许多应用而言,特别是那些需要高度可解释性和透明度的领域,如金融、医疗等,这是一个重要考虑因素。
  5. 收敛问题:在某些情况下,尤其是初始化不当或学习率设置不合适时,网络可能难以收敛到一个有效的解决方案。
  6. 缺失反馈机制:作为前馈网络,多层感知机缺乏循环神经网络(RNN)或长短时记忆网络(LSTM)等序列模型中的反馈机制,这限制了其处理时间序列数据或需要长期依赖任务的能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值