神经网络与深度学习(第一周学习)

第一节课

线性回归

线性回归是一种用于研究两个或两个以上变量之间相互依赖的定量关系的方法。线性回归问题的求解方法,包括最小二乘法和梯度下降法等。最后讨论了线性回归适用于哪些类型的数据分析,并提出了一些假设条件。
在这里插入图片描述

线性二分类

线性二分类问题是指将数据集中的样本分为两类的问题,其中每个样本由多个特征组成。
在这里插入图片描述

对数回归和多分类回归

对数回归是一种广义线性模型,用于建立输入变量和输出变量之间的关系。多分类回归是指将数据集中的样本分为多个类别的问题,其中每个样本由多个特征组成。介绍了对数回归模型的基本概念和要素,包括输入数据、输出数据、拟合函数等。然后,本文详细讲解了如何使用最大似然估计法来求解对数回归问题,并给出了具体步骤和示例代码。最后,本文还讨论了对数回归模型在机器学习领域中的应用,并提出了一些常用的改进方法。

神经元和感知机

介绍了神经元和感知机的概念及其在机器学习中的应用。神经元是一种基本的计算单元,它可以接收多个输入信号,并通过激活函数将这些信号加权求和后输出一个结果。感知机是一种最简单的神经网络模型,它由多个神经元组成,可以用于解决线性分类问题。

介绍了感知机模型的原理和实现方法,并给出了具体示例代码。同时,本文还讨论了感知机模型的局限性和改进方法,如多层感知机、卷积神经网络等。这些方法可以进一步提高神经网络模型的预测能力和泛化能力。
在这里插入图片描述

第二节课

多层感知机

线性不可分问题:无法进行线性分类。Minsky 1969年提出XOR问题,解决方法:使用多层感知机。在输入和输出层间加一或多层隐单元,构成多层感知器(多层前馈神经网络)。

多层感知器网络,有如下定理:
定理1 若隐层节点(单元)可任意设置,用三层阈值节点的网络,可以实现任意的二值逻辑函数。
定理2 若隐层节点(单元)可任意设置,用三层S型非线性特性节点的网络,可以一致逼近紧集上的连续函数或按 范数逼近紧集上的平方可积函数。

BP算法

BP学习算法由正向传播和反向传播组成:

  1. 正向传播是输入信号从输入层经隐层,传
    向输出层,若输出层得到了期望的输出,
    则学习算法结束;否则,转至反向传播。
  2. 反向传播是将误差(样本输出与网络输出
    之差)按原联接通路反向计算,由梯度下
    降法调整各层节点的权值和阈值,使误差
    减小。
    在这里插入图片描述

BP算法的详解包括以下几个方面:

  • BP算法的基本思想:利用梯度下降法,每次迭代更新权值和阈值,使目标函数(输出均方误差)最小化。
  • BP算法的推导:根据链式法则,计算输出层和隐层节点的误差项,以及权值和阈值的偏导数,得到更新公式。
  • BP算法的多分类回归:对于多分类问题,可以使用one-hot编码或softmax函数作为输出层的激活函数;对于回归问题,可以使用恒等函数或线性函数作为输出层的激活函数。

BP算法具有以下优缺点:

优点:
  • 非线性映射能力:BP神经网络可以实现任何复杂的非线性映射函数,适合于求解内部机制复杂的问题12。
  • 推广、概括能力:BP神经网络可以对未见过的输入样本进行合理的输出,具有一定的容错性和鲁棒性2。
  • 并行分布式处理能力:BP神经网络由多个节点组成,每个节点可以并行地进行信息处理和学习,提高了计算效率和速度1。
缺点:
  • 局部极小问题:BP算法是基于梯度下降法的优化方法,容易陷入局部最优解而不是全局最优解,而且收敛速度较慢。
  • 过拟合问题:BP神经网络如果过度学习训练数据,可能导致对测试数据或新数据的泛化能力下降,出现过拟合现象。
  • 网络结构和参数选择问题:BP神经网络的隐层节点数、学习率、动量因子等参数都需要人为设定,而没有一个统一的标准或规则来指导如何选择最优的网络结构和参数。

性能优化

动量法

图为损失函数轮廓。在进入以蓝色标记的山沟状区域之前随机开始。颜色实际上表示损失函数在特定点处的值有多大,红色表示最大值,蓝色表示最小值。我们想要达到最小值点,为此但需要我们穿过山沟。这个区域就是所谓的病态曲率。
在这里插入图片描述

自适应梯度算法

Adaptive Gradient: 自适应梯度:

  • 参数自适应变化:具有较大偏导的参数相应有一个较大的学习率,而具有小偏导的参数则对应一个较小的学习率。
  • 具体来说,每个参数的学习率会缩放各参数反比于其历史梯度平方值总和的平方根。

AdaGrad问题:

  • 学习率是单调递减的,训练后期学习率过小会导致训练困难,甚至提前结束。
  • 需要设置一个全局的初始学习率。

性能优化问题描述

在这里插入图片描述

二阶算法

牛顿法
L-M算法

常用技巧

  • 训练数据与测试数据:𝐾折交叉验证
  • 欠拟合与过拟合
  • 权重衰减 (𝐿2正则化)
  • Dropout(暂退)

动量法可有效改善收敛速度,以及避免一些陷入局部极小值AdaGrad及Adam等算法可自适应调节学习速率,加速收敛。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值